CN112766506A - 一种基于架构的知识库构建方法 - Google Patents
一种基于架构的知识库构建方法 Download PDFInfo
- Publication number
- CN112766506A CN112766506A CN202110069435.1A CN202110069435A CN112766506A CN 112766506 A CN112766506 A CN 112766506A CN 202110069435 A CN202110069435 A CN 202110069435A CN 112766506 A CN112766506 A CN 112766506A
- Authority
- CN
- China
- Prior art keywords
- pollution
- data
- structured
- text data
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000009411 base construction Methods 0.000 title claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 21
- 238000005065 mining Methods 0.000 claims abstract description 19
- 238000003911 water pollution Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 238000012550 audit Methods 0.000 claims description 21
- 238000012544 monitoring process Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 2
- 238000013075 data extraction Methods 0.000 abstract description 2
- 230000002265 prevention Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于架构的知识库构建方法,包括如下操作步骤:构建水域环境领域的基础数据库;获取水域污染的文本数据;采用类机器学习方法从水域污染文本数据中提取结构化污染数据;按照预设分类对结构化污染数据进行分类处理,确定多个污染类别,根据多个污染类别、污染场景和污染内容,确定多个污染知识的标签,得到污染分类处理结果;采用数据分析算法对结构化污染数据进行挖掘分析,得到污染挖掘分析结果。本发明采用类机器学习方法预先从污染文本数据中提取结构化污染数据,提高了数据提取速率;通过对结构化灾害数据进行分类和挖掘分析,可以将复杂繁琐的污染数据内容精简,可以准确有效地洞察污染变化。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于架构的知识库构建方法。
背景技术
目前,随着环保理念深入人心,污染防治工作不断开展,尤其在水域污染防治领域,如何快速实时的识别水域污染状态,是水域污染防治工作的关键。现有的水域污染状态识别方法大多采用人工检测的方式,通过人工比对水体颜色以及水体中污染物的含量得到水污染状态分析结果,这种污染识别方式耗时耗力,得到的结果可靠性不高,且时效性能以保证,现在缺乏一个针对水域环境领域的搜索引擎或专家知识库管理系统,对管理人员快速的了解近期污染动态和分析污染数据造成不便。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于架构的知识库构建方法。
本发明提出的一种基于架构的知识库构建方法,包括如下操作步骤:
S1构建水域环境领域的基础数据库;
S2获取水域污染的文本数据;
S3采用类机器学习方法从水域污染文本数据中提取结构化污染数据;
S4按照预设分类对结构化污染数据进行分类处理,确定多个污染类别,根据多个污染类别、污染场景和污染内容,确定多个污染知识的标签,得到污染分类处理结果;
S5采用数据分析算法对结构化污染数据进行挖掘分析,得到污染挖掘分析结果;
S6整合与自然灾害和人为因素的相关监测系统,从监测系统中提取自然灾害和人为因素的监测数据;
S7基于污染文本数据、结构化污染数据、污染分类处理结构、污染挖掘分析结果和基础数据库进行扩展,将多个污染知识的标签,存入数据库中,形成水域环境领域知识库。
优选的,所述步骤S1构建水域环境领域的基础数据库包括:采集历史污染案例,根据历史案例生成事件对象,事件对象包括事件标识、开始时间、结束时间、事件主题、事件关键词、事件简介,将事件对象存储为基础数据库。
优选的,所述步骤S4中还包括修改指令,修改指令为确定修改后的标签,在知识库中,将指定修改后的标签替换原有标签。
优选的,所述构建水域环境领域的基础数据库包括获取审核信息和审核需求,其中,审核需求对应多个审核领域,按照预设的分组规则对所述审核信息进行分组,生成多个审核数据组,根据多个审核数据组构建不同领域的基础数据库。
优选的,所述步骤S3结构化污染数据获取包括:对污染数据进行知识处理,获得候选数据,对候选数据进行知识融合,获得结构化数据。
优选的,所述步骤S2文本数据获取包括:确定预设污染关键字;采用分布式爬虫技术和/或增量式爬虫技术从目标网站中获取与预设污染关键字相匹配的原始文本数据,对原始文本数据进行预处理,得到污染文本数据。
优选的,所述原始文本数据预处理包括:进行文本内容抽取、数据清洗和去重、翻译、语义识别以及词性识别,得到污染文本数据。
优选的,所述污染文本数据、结构化污染数据、污染分类处理结构、污染挖掘分析结果和基础数据库存入私有云数据库中。
本发明中,所述一种基于架构的知识库构建方法,采用类机器学习方法预先从污染文本数据中提取结构化污染数据,提高了数据提取速率;通过对结构化灾害数据进行分类和挖掘分析,可以将复杂繁琐的污染数据内容精简,可以准确有效地洞察污染变化。
附图说明
图1为本发明提出的一种基于架构的知识库构建方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于架构的知识库构建方法,包括如下操作步骤:
S1构建水域环境领域的基础数据库;
S2获取水域污染的文本数据;
S3采用类机器学习方法从水域污染文本数据中提取结构化污染数据;
S4按照预设分类对结构化污染数据进行分类处理,确定多个污染类别,根据多个污染类别、污染场景和污染内容,确定多个污染知识的标签,得到污染分类处理结果;
S5采用数据分析算法对结构化污染数据进行挖掘分析,得到污染挖掘分析结果;
S6整合与自然灾害和人为因素的相关监测系统,从监测系统中提取自然灾害和人为因素的监测数据;
S7基于污染文本数据、结构化污染数据、污染分类处理结构、污染挖掘分析结果和基础数据库进行扩展,将多个污染知识的标签,存入数据库中,形成水域环境领域知识库。
本发明中,步骤S1构建水域环境领域的基础数据库包括:采集历史污染案例,根据历史案例生成事件对象,事件对象包括事件标识、开始时间、结束时间、事件主题、事件关键词、事件简介,将事件对象存储为基础数据库。
本发明中,步骤S4中还包括修改指令,修改指令为确定修改后的标签,在知识库中,将指定修改后的标签替换原有标签。
本发明中,构建水域环境领域的基础数据库包括获取审核信息和审核需求,其中,审核需求对应多个审核领域,按照预设的分组规则对审核信息进行分组,生成多个审核数据组,根据多个审核数据组构建不同领域的基础数据库。
本发明中,步骤S3结构化污染数据获取包括:对污染数据进行知识处理,获得候选数据,对候选数据进行知识融合,获得结构化数据。
本发明中,步骤S2文本数据获取包括:确定预设污染关键字;采用分布式爬虫技术和/或增量式爬虫技术从目标网站中获取与预设污染关键字相匹配的原始文本数据,对原始文本数据进行预处理,得到污染文本数据。
本发明中,原始文本数据预处理包括:进行文本内容抽取、数据清洗和去重、翻译、语义识别以及词性识别,得到污染文本数据。
本发明中,污染文本数据、结构化污染数据、污染分类处理结构、污染挖掘分析结果和基础数据库存入私有云数据库中。
本发明:构建水域环境领域的基础数据库;获取水域污染的文本数据;采用类机器学习方法从水域污染文本数据中提取结构化污染数据;按照预设分类对结构化污染数据进行分类处理,确定多个污染类别,根据多个污染类别、污染场景和污染内容,确定多个污染知识的标签,得到污染分类处理结果;采用数据分析算法对结构化污染数据进行挖掘分析,得到污染挖掘分析结果;整合与自然灾害和人为因素的相关监测系统,从监测系统中提取自然灾害和人为因素的监测数据;基于污染文本数据、结构化污染数据、污染分类处理结构、污染挖掘分析结果和基础数据库进行扩展,将多个污染知识的标签,存入数据库中,形成水域环境领域知识库。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于架构的知识库构建方法,其特征在于,包括如下操作步骤:
S1构建水域环境领域的基础数据库;
S2获取水域污染的文本数据;
S3采用类机器学习方法从水域污染文本数据中提取结构化污染数据;
S4按照预设分类对结构化污染数据进行分类处理,确定多个污染类别,根据多个污染类别、污染场景和污染内容,确定多个污染知识的标签,得到污染分类处理结果;
S5采用数据分析算法对结构化污染数据进行挖掘分析,得到污染挖掘分析结果;
S6整合与自然灾害和人为因素的相关监测系统,从监测系统中提取自然灾害和人为因素的监测数据;
S7基于污染文本数据、结构化污染数据、污染分类处理结构、污染挖掘分析结果和基础数据库进行扩展,将多个污染知识的标签,存入数据库中,形成水域环境领域知识库。
2.根据权利要求1所述的一种基于架构的知识库构建方法,其特征在于,所述步骤S1构建水域环境领域的基础数据库包括:采集历史污染案例,根据历史案例生成事件对象,事件对象包括事件标识、开始时间、结束时间、事件主题、事件关键词、事件简介,将事件对象存储为基础数据库。
3.根据权利要求1所述的一种基于架构的知识库构建方法,其特征在于,所述步骤S4中还包括修改指令,修改指令为确定修改后的标签,在知识库中,将指定修改后的标签替换原有标签。
4.根据权利要求1所述的一种基于架构的知识库构建方法,其特征在于,所述构建水域环境领域的基础数据库包括获取审核信息和审核需求,其中,审核需求对应多个审核领域,按照预设的分组规则对所述审核信息进行分组,生成多个审核数据组,根据多个审核数据组构建不同领域的基础数据库。
5.根据权利要求1所述的一种基于架构的知识库构建方法,其特征在于,所述步骤S3结构化污染数据获取包括:对污染数据进行知识处理,获得候选数据,对候选数据进行知识融合,获得结构化数据。
6.根据权利要求1所述的一种基于架构的知识库构建方法,其特征在于,所述步骤S2文本数据获取包括:确定预设污染关键字;采用分布式爬虫技术和/或增量式爬虫技术从目标网站中获取与预设污染关键字相匹配的原始文本数据,对原始文本数据进行预处理,得到污染文本数据。
7.根据权利要求6所述的一种基于架构的知识库构建方法,其特征在于,所述原始文本数据预处理包括:进行文本内容抽取、数据清洗和去重、翻译、语义识别以及词性识别,得到污染文本数据。
8.根据权利要求1所述的一种基于架构的知识库构建方法,其特征在于,所述污染文本数据、结构化污染数据、污染分类处理结构、污染挖掘分析结果和基础数据库存入私有云数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069435.1A CN112766506A (zh) | 2021-01-19 | 2021-01-19 | 一种基于架构的知识库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110069435.1A CN112766506A (zh) | 2021-01-19 | 2021-01-19 | 一种基于架构的知识库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766506A true CN112766506A (zh) | 2021-05-07 |
Family
ID=75703163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110069435.1A Pending CN112766506A (zh) | 2021-01-19 | 2021-01-19 | 一种基于架构的知识库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766506A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535818A (zh) * | 2021-07-15 | 2021-10-22 | 福建亿榕信息技术有限公司 | 一种构建审计综合知识库的方法、设备 |
CN117634606A (zh) * | 2024-01-25 | 2024-03-01 | 浪潮软件科技有限公司 | 一种基于机器学习的多维知识数据智能管理方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071152A1 (en) * | 2003-09-29 | 2005-03-31 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
WO2008042264A2 (en) * | 2006-09-29 | 2008-04-10 | Inferx Corporation | Distributed method for integrating data mining and text categorization techniques |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
CN109408804A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 舆情分析方法、系统、设备和存储介质 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
CN111626568A (zh) * | 2020-05-06 | 2020-09-04 | 厦门理工学院 | 知识库构建方法、装置和知识搜索方法、系统 |
CN111782825A (zh) * | 2020-08-20 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 知识库构建方法及装置 |
CN111914141A (zh) * | 2020-07-30 | 2020-11-10 | 广州城市信息研究所有限公司 | 一种舆情知识库构建方法及舆情知识库 |
CN111966689A (zh) * | 2020-08-19 | 2020-11-20 | 中国银行股份有限公司 | 应用知识库构建方法及装置 |
-
2021
- 2021-01-19 CN CN202110069435.1A patent/CN112766506A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071152A1 (en) * | 2003-09-29 | 2005-03-31 | Hitachi, Ltd. | Cross lingual text classification apparatus and method |
WO2008042264A2 (en) * | 2006-09-29 | 2008-04-10 | Inferx Corporation | Distributed method for integrating data mining and text categorization techniques |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
CN109408804A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 舆情分析方法、系统、设备和存储介质 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
CN111626568A (zh) * | 2020-05-06 | 2020-09-04 | 厦门理工学院 | 知识库构建方法、装置和知识搜索方法、系统 |
CN111914141A (zh) * | 2020-07-30 | 2020-11-10 | 广州城市信息研究所有限公司 | 一种舆情知识库构建方法及舆情知识库 |
CN111966689A (zh) * | 2020-08-19 | 2020-11-20 | 中国银行股份有限公司 | 应用知识库构建方法及装置 |
CN111782825A (zh) * | 2020-08-20 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 知识库构建方法及装置 |
Non-Patent Citations (1)
Title |
---|
崔宝侠;姚晓颖;苏桂华;刘伟;: "水环境评价决策支持系统知识库系统的设计", 沈阳工业大学学报, no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535818A (zh) * | 2021-07-15 | 2021-10-22 | 福建亿榕信息技术有限公司 | 一种构建审计综合知识库的方法、设备 |
CN117634606A (zh) * | 2024-01-25 | 2024-03-01 | 浪潮软件科技有限公司 | 一种基于机器学习的多维知识数据智能管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
Rahul et al. | Automatic information extraction from piping and instrumentation diagrams | |
CN111078868A (zh) | 基于知识图谱分析的装备试验体系规划决策的方法及系统 | |
US6047277A (en) | Self-organizing neural network for plain text categorization | |
CN112766506A (zh) | 一种基于架构的知识库构建方法 | |
CN110807098A (zh) | 基于BiRNN深度学习的DGA域名检测方法 | |
CN113239130A (zh) | 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 | |
CN111581956B (zh) | 基于bert模型和k近邻的敏感信息识别方法及系统 | |
CN109597889B (zh) | 一种基于文本分类和深度神经网络的定罪方法和系统 | |
CN113761259A (zh) | 一种图像处理方法、装置以及计算机设备 | |
CN111026880B (zh) | 基于联合学习的司法知识图谱构建方法 | |
CN110909542B (zh) | 智能语义串并分析方法及系统 | |
CN111126820A (zh) | 反窃电方法及系统 | |
CN115330268A (zh) | 一种应对矿山灾难的综合性应急指挥方法及系统 | |
CN110019703A (zh) | 数据标记方法及装置、智能问答方法及系统 | |
CN110969015B (zh) | 一种基于运维脚本的标签自动化识别方法和设备 | |
CN110716957B (zh) | 类案可疑对象智能挖掘分析方法 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN112532652A (zh) | 一种基于多源数据的攻击行为画像装置及方法 | |
CN112580329B (zh) | 文本噪声数据识别方法、装置、计算机设备和存储介质 | |
CN116468392A (zh) | 一种电网工程项目进度监控方法、装置、设备及存储介质 | |
CN116719899A (zh) | 一种针对大模型的领域知识更新系统及方法 | |
CN115112850A (zh) | 一种基于大数据的水质监测系统 | |
CN113505222A (zh) | 一种基于文本循环神经网络的政务文本分类方法及系统 | |
CN117372956A (zh) | 一种变电站屏柜设备状态检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |