CN114065934A - 一种环境影响评价领域语义知识库构建方法及系统 - Google Patents
一种环境影响评价领域语义知识库构建方法及系统 Download PDFInfo
- Publication number
- CN114065934A CN114065934A CN202010783302.6A CN202010783302A CN114065934A CN 114065934 A CN114065934 A CN 114065934A CN 202010783302 A CN202010783302 A CN 202010783302A CN 114065934 A CN114065934 A CN 114065934A
- Authority
- CN
- China
- Prior art keywords
- knowledge base
- target
- industry
- keyword
- professional term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 68
- 230000007613 environmental effect Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 238000012216 screening Methods 0.000 claims description 11
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 239000004568 cement Substances 0.000 claims description 5
- 244000144972 livestock Species 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000005611 electricity Effects 0.000 claims 2
- 238000009304 pastoral farming Methods 0.000 claims 2
- 238000009374 poultry farming Methods 0.000 claims 2
- 238000012544 monitoring process Methods 0.000 description 10
- 239000003344 environmental pollutant Substances 0.000 description 8
- 231100000719 pollutant Toxicity 0.000 description 8
- 238000009411 base construction Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 4
- 238000009395 breeding Methods 0.000 description 3
- 230000001488 breeding effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 244000144977 poultry Species 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 239000000809 air pollutant Substances 0.000 description 2
- 231100001243 air pollutant Toxicity 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012911 target assessment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种环境影响评价领域语义知识库构建方法及系统,包括:针对各行业类别,根据业务需求和行业专家知识构造该行业类别对应的专业术语知识库和非专业术语知识库,并对该非专业术语知识库中每一个非专业术语关键词,通过正则表达式建立模糊抽取规则;构建行业类别、专业术语、规则和关键词的四元关系,根据该四元关系生成关键词‑规则词库;根据目标环评文件的行业类别从该关键词‑规则词库选择对应的专业术语,定位该目标环评文件的目标章节以及目标章节对应的表格和文本内容,根据该关键词‑规则词库中规则抽取目标章节以及目标章节对应的表格和文本内容中关键词,并对抽取结果进行打分,根据打分结果对该目标环评文件的规范性进行评测。
Description
技术领域
本发明涉及环境影响评价领域,特别是涉及一种环境影响评价领域语义知识库构建方法及系统。
背景技术
环评书书写不规范,专业名词不准确的现象时有发生。环评局对项目进行审批时,根据环评报告判断其对项目情况的整体评估是否符合行业标准规范,筛选出不合规的环评报告。
每个月都有成千上万份环评文件汇聚到环保局,现有的技术方案是通过人工方式去一一阅读、审批、记录不合规文件,工作量巨大。现有技术中也出现了一些使用信息抽取技术自动抽取文档信息的技术方案,但是环评报告不同于一般文档,它有统一的行业标准规范,且环评报告篇幅长,包含文本信息和复杂的表格信息,现有技术很难适用环评领域。因此,亟需设计一种环境影响评价领域语义知识库构建方法及应用系统。
发明内容
针对现有技术的不足,本发明提出一种环境影响评价领域语义知识库构建方法,可解决环境评价语义知识库的构建问题以及对环评文件的规范性检测筛查问题,其中包括:
步骤1、针对各行业类别,根据业务需求和行业专家知识构造该行业类别对应的专业术语知识库;
步骤2、采集属于各行业类别的环评文件样本,通过规则定位到环评文件样本的目标章节,抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库,对该非专业术语知识库中每一个非专业术语关键词,通过正则表达式建立模糊抽取规则;
步骤3、根据该专业术语知识库、该非专业术语知识库和该模糊抽取规则,建立行业类别、专业术语、规则和关键词的四元关系,根据该四元关系生成基于树状结构的关键词-规则词库;
步骤4、获取目标环评文件,根据该目标环评文件的行业类别从该关键词 -规则词库选择对应的专业术语,定位该目标环评文件的目标章节以及目标章节对应的表格和文本内容,根据该关键词-规则词库中规则抽取目标章节以及目标章节对应的表格和文本内容中关键词,并对抽取结果进行打分,根据打分结果对该目标环评文件的规范性进行评测,例如将打分结果低于预设值的目标环评文件作为不合规文件。
所述的环境影响评价领域语义知识库构建方法,其中该步骤2包括规则更新步骤,对环评文件样本,通过该专业术语知识库中专业术语,定位环评文件样本的目标章节,根据该模糊抽取规则对该目标章节进行抽取,若抽取结果为空,则抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库并更新该模糊抽取规则。
所述的环境影响评价领域语义知识库构建方法,其中该行业类别包括畜禽养殖行业、水泥行业、电力、热力生产和供应业。
所述的环境影响评价领域语义知识库构建方法,其中该步骤1具体包括:遍历各行业类别环评行业标准文件,抽取每部分文本内容和对应附录中所有表格的关键词,通过业务需求和行业专家知识对关键词进行筛选,基于筛选结果构成专业术语知识库。
所述的环境影响评价领域语义知识库构建方法,其中该步骤2中目标章节包括表格和文本;对于表格,从表格中按顺序抽取到所有词作为备选关键词;对于文本,提取总结性段落,进行分词获得备选关键词;
该模糊抽取规则包括表格形式和文本形式,对表格和文本分别建立不同的抽取规则。
本发明还提出了一种环境影响评价领域语义知识库构建系统,其中包括:
模块1、针对各行业类别,根据业务需求和行业专家知识构造该行业类别对应的专业术语知识库;
模块2、采集属于各行业类别的环评文件样本,通过规则定位到环评文件样本的目标章节,抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库,对该非专业术语知识库中每一个非专业术语关键词,通过正则表达式建立模糊抽取规则;
模块3、根据该专业术语知识库、该非专业术语知识库和该模糊抽取规则,建立行业类别、专业术语、规则和关键词的四元关系,根据该四元关系生成基于树状结构的关键词-规则词库;
模块4、获取目标环评文件,根据该目标环评文件的行业类别从该关键词 -规则词库选择对应的专业术语,定位该目标环评文件的目标章节以及目标章节对应的表格和文本内容,根据该关键词-规则词库中规则抽取目标章节以及目标章节对应的表格和文本内容中关键词,并对抽取结果进行打分,根据打分结果对该目标环评文件的规范性进行评测。
所述的环境影响评价领域语义知识库构建系统,其中该模块2包括规则更新模块,对环评文件样本,通过该专业术语知识库中专业术语,定位环评文件样本的目标章节,根据该模糊抽取规则对该目标章节进行抽取,若抽取结果为空,则抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库并更新该模糊抽取规则。
所述的环境影响评价领域语义知识库构建系统,其中该行业类别包括畜禽养殖行业、水泥行业、电力、热力生产和供应业。
所述的环境影响评价领域语义知识库构建系统,其中该模块1具体包括:遍历各行业类别环评行业标准文件,抽取每部分文本内容和对应附录中所有表格的关键词,通过业务需求和行业专家知识对关键词进行筛选,基于筛选结果构成专业术语知识库。
所述的环境影响评价领域语义知识库构建系统,其中该模块2中目标章节包括表格和文本;对于表格,从表格中按顺序抽取到所有词作为备选关键词;对于文本,提取总结性段落,进行分词获得备选关键词;
该模糊抽取规则包括表格形式和文本形式,对表格和文本分别建立不同的抽取规则。
由以上方案可知,本发明的优点在于:本发明可根据行业标准规范,对环评文件进行快速抽取和判断,从大批量环评报告中筛选出不合规文件。
附图说明
图1为行业、专业术语、规则、关键词四元关系示意图;
图2为本发明一实施例流程图;
图3和图4为本发明一实施例抽取结果示意图。
具体实施方式
基于此,本发明提出一种环境影响评价领域语义知识库构建方法及应用系统,根据行业标准规范,对信息进行快速抽取和判断,从大批量环评报告中筛选出不合规文件,以解决上述背景技术中提出的问题。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明提供一种环境影响评价领域语义知识库构建方法,包括:
S1、针对不同行业,依据环评行业标准文件,根据业务需求和行业专家知识构造关键词专业术语知识库;
S2、采集各行业环评文件样本,根据专业术语,通过规则定位到环评文件样本相应章节,抽取章节备选关键词,计算与专业术语的相似度,得到相似度高于一定阈值的近似关键词,构造关键词非专业术语知识库针对每一个非专业术语关键词,使用正则表达式建立模糊抽取规则。对大量环评文件样本,根据关键词专业术语,定位目标环评文件的章节以及与章节对应的内容,根据模糊抽取规则抽取相应的关键词,若抽取结果为空,则抽取关键词作为备选关键词,计算与该专业术语的相似度,否则完成定位。若相似度高于一定阈值,则将备选关键词加入非专业术语知识库,完善关键词抽取规则。其中定位章节备选关键词的具体过程可通过人工标注方式建立基于章节名称的知识库,知识库中涵盖环评文件中常用关键字。完善关键词抽取规则的具体方式可通过人工添加方式完善规则。
其中正则表达式可为:r'(监测|验收)(项目|因子|指标|内容|参数|污染源|污染物|治理对象)'。能抽取到的内容包括:1.监测项目、监测因子、监测指标、监测内容、监测参数、监测污染源、监测污染物、监测治理对象。将上行1中所有的监测改成验收,对应的所有词;将上行1中所有的监测去掉,对应的所有词。这个正则表达式就是模糊抽取规则,能抽取到的所有词都是非专业术语关键词。大部分和专业术语关键词相近或类似的词,都会有一个依大量文件的经验构造的正则表达式,来表示(或包含)大部分非专业术语关键词。
S3、根据以上关键词专业术语知识库、关键词非专业术语知识库和关键词抽取规则,建立(行业,专业术语,规则,关键词)四元关系,生成树状结构的关键词-规则词库;
S4、获取目标环评文件,根据行业名称从关键词-规则词库选择对应的关键词专业术语,定位目标环评文件的章节以及与章节对应的表格和文本内容,根据关键词-规则词库中的规则抽取相应的关键词,若有抽取结果,则对抽取结果进行打分。若没有抽取结果,则空,按照缺少本信息处理。
所述不同行业为环境影响评价领域所有行业,包括畜禽养殖行业、水泥行业、电力、热力生产和供应业等。
所述步骤S1构造关键词专业术语知识库,遍历环评行业标准文件,抽取每部分文本内容和对应附录中所有表格的关键词,通过业务需求和行业专家知识对关键词进行筛选。
所述步骤S2抽取章节备选关键词,章节内容包括表格和文本。对于表格,从表格中按顺序抽取到所有词作为备选关键词;对于文本,提取总结性段落,进行分词获得备选关键词。计算备选关键词与关键词专业术语相似度,筛选出高于一定阈值的备选关键词作为关键词非专业术语。
所述关键词专业术语与关键词非专业术语是一对多的关系。
所述步骤S2抽取规则包括表格形式和文本形式,对表格和文本分别建立不同的抽取规则。
所述步骤S4对抽取结果进行打分,包括:
每个关键词专业术语,约定三档分数:1、0.8、0.5,分别表示必须检验的关键词、需要检验的关键词、锦上添花的关键词。此处分数表示关键词的重要性。
对于关键词非专业术语,对抽取的每个关键词专业术语对应的关键词抽取结果进行打分,约定如果关键词和专业术语完全一致为1分,如果关键词和专业术语相近(有不同文字)且不会产生歧义为0分,如果关键词和专业术语不同且会产生歧义为-1分。此处分数表示关键词的合规性。
计算关键词权重,每个关键词就有了两个分数:关键词专业术语的分数,抽取带的非专业术语关键词的分数,这两个分数相乘得到每个关键词的权重,得到权重矩阵W。
针对待打分的目标环评文件,查看抽取出的每个关键词是否出现在相关章节中,出现得分1,没出现得分0,得到得分矩阵S.
对于每个关键词,计算权重矩阵W和得分矩阵S的点积得到最终总分,此总分即为目标环评文件规范性分数,分数大于0越多,规范性越好,小于0 越多,规范性越差。
下文以一钢桶生产加工项目环评文件为例具体介绍本发明如下:
钢桶生产加工项目环评文件属于金属制品加工制造行业(22_067),根据评价等级判定需要,需要抽取环评文件中的大气评价等级、大气污染物占标率两项指标。
大气评价等级:根据主要污染物等标准排放量、周围地形复杂程度以及当地执行的大气环境质量标准等条件,将大气环境影响评价工作划分为一、二、三级。
大气污染物占标率:大气污染物排放中染污物最大落地浓度占标准浓度的比率。
如图2所示,本实施例包括以下步骤:
步骤S1、下载环评文件(报告书/表)并读取;
步骤S2、验证数据有效性。若数据无效,则抛弃不处理,结束当前流程;若数据有效,则进入下一步;
步骤S3、抽取待提取信息的章节。若未抽取到信息对应的章节,则后续进行全文抽取;若抽取到信息对应的章节,则后续在对应章节中抽取;
步骤S4、使用正则表达式建立模糊抽取规则,建立(专业术语,规则,关键词)关系,对表格中的大气污染物占标率和大气评价等级进行抽取,假如未抽取到信息,重新进行全文抽取大气污染物占标率和大气评价等级信息;
步骤S5、抽取输出大气污染物占标率和大气评价等级结果,结果具体如图3和图4所示。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提供了一种环境影响评价领域语义知识库应用系统,该系统包括:
关键词专业术语知识库构建模块,其针对不同行业,依据环评行业标准文件,根据业务需求和行业专家知识构造关键词专业术语知识库;
关键词非专业术语知识库构建模块,其采集各行业环评文件样本,根据专业术语,通过规则定位到环评文件样本相应章节,抽取章节关键词,计算与专业术语的相似度,得到相似度高于一定阈值的近似关键词,构造关键词非专业术语知识库;
树状结构关键词构建模块,针对每一个非专业术语关键词,使用正则表达式建立模糊抽取规则,建立(专业术语,规则,关键词)三元关系,生成树状结构的关键词-规则词库;
抽取规则构建模块,其针对每一个非专业术语关键词,使用正则表达式建立模糊抽取规则,对大量环评文件样本,根据关键词专业术语,定位目标环评文件的章节以及与章节对应的(表格和文本)内容,根据模糊抽取规则抽取相应的关键词,若抽取结果为空,则抽取(表格和文本内容)章节关键词,计算与该专业术语的相似度,若相似度高于一定阈值,则将章节关键词加入非专业术语知识库,完善关键词抽取规则。
树状结构关键词构建模块,其根据以上关键词专业术语知识库、关键词非专业术语知识库和关键词抽取规则,建立(专业术语,规则,关键词)三元关系,生成树状结构的关键词-规则词库;
规范性评测模块,获取目标环评文件,根据行业名称从关键词-规则词库选择对应的关键词专业术语,定位目标环评文件的章节以及与章节对应的表格和文本内容,根据关键词-规则词库中的规则抽取相应的关键词,若有抽取结果,则对抽取结果进行打分,对环评文件规范性进行评测。
Claims (10)
1.一种环境影响评价领域语义知识库构建方法,其特征在于,包括:
步骤1、针对各行业类别,根据业务需求和行业专家知识构造该行业类别对应的专业术语知识库;
步骤2、采集属于各行业类别的环评文件样本,通过规则定位到环评文件样本的目标章节,抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库,对该非专业术语知识库中每一个非专业术语关键词,通过正则表达式建立模糊抽取规则;
步骤3、根据该专业术语知识库、该非专业术语知识库和该模糊抽取规则,建立行业类别、专业术语、规则和关键词的四元关系,根据该四元关系生成基于树状结构的关键词-规则词库;
步骤4、获取目标环评文件,根据该目标环评文件的行业类别从该关键词-规则词库选择对应的专业术语,定位该目标环评文件的目标章节以及目标章节对应的表格和文本内容,根据该关键词-规则词库中规则抽取目标章节以及目标章节对应的表格和文本内容中关键词,并对抽取结果进行打分,根据打分结果对该目标环评文件的规范性进行评测。
2.如权利要求1所述的环境影响评价领域语义知识库构建方法,其特征在于,该步骤2包括规则更新步骤,对环评文件样本,通过该专业术语知识库中专业术语,定位环评文件样本的目标章节,根据该模糊抽取规则对该目标章节进行抽取,若抽取结果为空,则抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库并更新该模糊抽取规则。
3.如权利要求1所述的环境影响评价领域语义知识库构建方法,其特征在于,该行业类别包括畜禽养殖行业、水泥行业、电力、热力生产和供应业。
4.如权利要求1所述的环境影响评价领域语义知识库构建方法,其特征在于,该步骤1具体包括:遍历各行业类别环评行业标准文件,抽取每部分文本内容和对应附录中所有表格的关键词,通过业务需求和行业专家知识对关键词进行筛选,基于筛选结果构成专业术语知识库。
5.如权利要求1所述的环境影响评价领域语义知识库构建方法,其特征在于,该步骤2中目标章节包括表格和文本;对于表格,从表格中按顺序抽取到所有词作为备选关键词;对于文本,提取总结性段落,进行分词获得备选关键词;
该模糊抽取规则包括表格形式和文本形式,对表格和文本分别建立不同的抽取规则。
6.一种环境影响评价领域语义知识库构建系统,其特征在于,包括:
模块1、针对各行业类别,根据业务需求和行业专家知识构造该行业类别对应的专业术语知识库;
模块2、采集属于各行业类别的环评文件样本,通过规则定位到环评文件样本的目标章节,抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库,对该非专业术语知识库中每一个非专业术语关键词,通过正则表达式建立模糊抽取规则;
模块3、根据该专业术语知识库、该非专业术语知识库和该模糊抽取规则,建立行业类别、专业术语、规则和关键词的四元关系,根据该四元关系生成基于树状结构的关键词-规则词库;
模块4、获取目标环评文件,根据该目标环评文件的行业类别从该关键词-规则词库选择对应的专业术语,定位该目标环评文件的目标章节以及目标章节对应的表格和文本内容,根据该关键词-规则词库中规则抽取目标章节以及目标章节对应的表格和文本内容中关键词,并对抽取结果进行打分,根据打分结果对该目标环评文件的规范性进行评测。
7.如权利要求6所述的环境影响评价领域语义知识库构建系统,其特征在于,该模块2包括规则更新模块,对环评文件样本,通过该专业术语知识库中专业术语,定位环评文件样本的目标章节,根据该模糊抽取规则对该目标章节进行抽取,若抽取结果为空,则抽取目标章节中多个备选关键词,计算每一个备选关键词与专业术语的相似度,集合相似度高于阈值的关键词,构成非专业术语知识库并更新该模糊抽取规则。
8.如权利要求6所述的环境影响评价领域语义知识库构建系统,其特征在于,该行业类别包括畜禽养殖行业、水泥行业、电力、热力生产和供应业。
9.如权利要求6所述的环境影响评价领域语义知识库构建系统,其特征在于,该模块1具体包括:遍历各行业类别环评行业标准文件,抽取每部分文本内容和对应附录中所有表格的关键词,通过业务需求和行业专家知识对关键词进行筛选,基于筛选结果构成专业术语知识库。
10.如权利要求6所述的环境影响评价领域语义知识库构建系统,其特征在于,该模块2中目标章节包括表格和文本;对于表格,从表格中按顺序抽取到所有词作为备选关键词;对于文本,提取总结性段落,进行分词获得备选关键词;
该模糊抽取规则包括表格形式和文本形式,对表格和文本分别建立不同的抽取规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010783302.6A CN114065934A (zh) | 2020-08-06 | 2020-08-06 | 一种环境影响评价领域语义知识库构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010783302.6A CN114065934A (zh) | 2020-08-06 | 2020-08-06 | 一种环境影响评价领域语义知识库构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065934A true CN114065934A (zh) | 2022-02-18 |
Family
ID=80232534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010783302.6A Pending CN114065934A (zh) | 2020-08-06 | 2020-08-06 | 一种环境影响评价领域语义知识库构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065934A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580978A (zh) * | 2022-05-06 | 2022-06-03 | 四川野马科技有限公司 | 一种环评报告质量检查系统及其方法 |
-
2020
- 2020-08-06 CN CN202010783302.6A patent/CN114065934A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580978A (zh) * | 2022-05-06 | 2022-06-03 | 四川野马科技有限公司 | 一种环评报告质量检查系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN110597988A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN109783639B (zh) | 一种基于特征提取的调解案件智能分派方法及系统 | |
US8325189B2 (en) | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN110826320A (zh) | 一种基于文本识别的敏感数据发现方法及系统 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN113282955B (zh) | 隐私政策中隐私信息提取方法、系统、终端及介质 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN112036842A (zh) | 一种科技服务智能匹配平台 | |
CN110688407B (zh) | 一种社会关系挖掘的方法 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN114065934A (zh) | 一种环境影响评价领域语义知识库构建方法及系统 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
WO2015059940A1 (ja) | 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム | |
CN112036841A (zh) | 基于智能语义识别的政策解析系统及方法 | |
CN113051455B (zh) | 一种基于网络文本数据的水务舆情识别方法 | |
CN115658993A (zh) | 一种网页的核心内容的智能化抽取方法及系统 | |
CN115619443A (zh) | 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统 | |
CN112988972A (zh) | 一种基于数据模型的行政处罚案卷评查方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |