CN108984647A - 一种基于中文文本的水务领域知识图谱构建方法 - Google Patents
一种基于中文文本的水务领域知识图谱构建方法 Download PDFInfo
- Publication number
- CN108984647A CN108984647A CN201810665703.4A CN201810665703A CN108984647A CN 108984647 A CN108984647 A CN 108984647A CN 201810665703 A CN201810665703 A CN 201810665703A CN 108984647 A CN108984647 A CN 108984647A
- Authority
- CN
- China
- Prior art keywords
- water utilities
- text
- word
- utilities
- water
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于中文文本的水务领域知识图谱构建方法,包括在网上爬取大量水务文本,利用jieba分词进行中文文本分词,利用stopwords去词表去除分词后文本的停用词,利用TF‑IDF方法获取每个概念词的权重,设置一个阈值,保留大于阈值的概念词组成水务概念词库。然后根据与CN‑Dbprdia接口连接,获取水务概念词的上级概念,建立结构化水务知识图谱。接着水务结构化知识图谱挂接水务结构化数据库表以及水务文本,完成最终的水务知识图谱的构建。最后运用评估方法对挂接方法进行评估。本发明通过结合不同知识图谱构建方法,充分考虑了知识图谱之间的多种类型数据进行融合,能够提高水务知识图谱构建的效率,提高水务知识图谱的完整性以及准确性。
Description
技术领域
本发明涉及知识图谱构建技术领域,涉及一种基于中文文本的水务领域知识图谱构建方法,特别涉及一种基于TF-IDF权重计算方法、CN-Dbpedia等级关系组建方法以及编辑距离和LDA相似度计算挂接方法的水务文本领域知识图谱构建方法。
背景技术
目前调研知识图谱构建主要包含技术有:1)数据模式层融合:概念合并,概念上下位关系合并,概念的属性合并,国内外研究学者在这些方面做出了很多贡献。国内知识图谱映射技术主要包括词典wordnet、结构和基于实例的方法,以及使用背景知识和以前的知识找到匹配结果输出。通常,两个相关知识图谱的匹配,输出是由匹配知识图谱概念之间的对应关系组成的知识图谱映射,知识图谱映射对于知识图谱演化和不同的信息集成是有用的,例如知识图谱集成。中国中南大学的Lily知识图谱映射系统在近几年发展较好。国外许多著名的大学和实验室都对知识图谱映射进行了相关的研究,已经开发出一些具体的映射系统和实现方法,如华盛顿大学研究的Glue系统的基于概念实例的方法,斯坦福大学的知识图谱代数方法,马里兰大学的语义消解方法,M.Andrew等提出的利用概念定义的方法,Karlsruhe大学的KAON工程中的知识图谱映射框架MAFRA。Juanzi Li等人针对知识图谱对齐提出的Rimom框架,通过自动组合多种策略提高效果。Daniel Faria在2015年的OAEI中参赛的AML知识图谱映射系统就是基于知识图谱概念的知识图谱映射系统。Rana Forsati等人提出了一种基于知识图谱映射(HSOMAP)的方法等等;2)数据层融合:实体合并、实体属性合并、冲突检测与解决,国外Aidan Hogan等人对于大规模,静态的关联数据预料库,讨论了实体整合的可扩展和分布式方法。
但是这些方法应用于中文文本的水务领域知识图谱构建效果不佳。
发明内容
有鉴于上述现有技术的不足,本发明的目的在于提供一种基于中文文本的水务领域知识图谱构建方法,旨在解决智慧水务信息融合的问题。
本发明解决其技术问题所采取的技术方案是:一种中文文本的水务领域知识图谱构建方法,该方法主要包括如下步骤:
步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中。
步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改。
步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。
进一步的,本发明步骤1所述的构建水务概念词库的方法,其步骤具体包括:
步骤1-1:使用python从水务博客以及水务文档中爬取一些水务文本。
步骤1-2:用python中的jieba工具对抽取的水务文本进行文本分词。
步骤1-3:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关概念词。
步骤1-4:用TF-IDF方法对水务相关概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的概念词。
进一步的,本发明步骤2所述的构建概念层次关系的方法,其步骤具体包括:
步骤2-1:输出的概念词与CN-Dbpedie接口连接,提取出概念词的上级词汇,构建概念的等级结构层次关系,并保存到数据库中,根据备选概念词和专家知识对概念等级结构进行修改。
步骤2-2:用jena工具将保存到数据库中的概念信息表写成owl文件。
进一步的,本发明步骤3所述的在protégé中实现可视化并挂接水务信息的方法,其步骤具体包括:
步骤3-1:将owl文件导入到protégé软件中,实现水务领域知识图谱的可视化。
步骤3-2:运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,以完善水务领域知识图谱,形成最终的水务知识图谱。
进一步的,本发明步骤1-4所述的用TF-IDF选取水务相关概念词方法,其步骤具体包括:
步骤1-4-1:计算词语ti的词频其中ni,j是词语ti在文档dj中出现的次数,∑knk,j是在文档dj中所有字词的出现次数之和。
步骤1-4-2:计算逆向文件频率其中|D|为语料库中的文档总数,|{j:ti∈dj}|为包含该词的文档数。
步骤1-4-3:计算tf-idf值:TF-IDFi,j=TFi,j×IDFi。
步骤1-4-4:令i=i+1重复前四步,计算出所有文档中每个词的tf-idf值。
步骤1-4-5:根据概念词权重值情况设定一个阈值,保留权重大于阈值的概念词。
进一步的,本发明步骤3-2所述的运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,其步骤具体包括:
步骤3-2-1:分别用编辑距离算法、Jaccard算法以及欧氏距离算法计算结构化数据库表与水务知识图谱概念词之间的相似度。
步骤3-2-2:分别用TF-IDF+余弦相似度算法、LSI算法以及LDA算法计算水务文本与水务知识图谱概念词之间的相似度。
步骤3-2-3:分别计算结构化数据库表以及水务文本挂接算法结果的查准率P、召回率R以及精确值和召回率的调和均值F,以评估算法,计算公式分别如下:
查准率:
召回率:
精确值和召回率的调和均值:
步骤3-2-4:选取评估结果最好的一种结构化数据库表挂接算法以及一种非结构化水务文本的挂接算法,分别在水务知识图谱中对这两种数据进行挂接,得到最终完善的水务知识图谱。
本发明能够应用于水务领域知识图谱的构建。
有益效果:
1.本发明在水务概念词抽取阶段,面对大量水务博客信息以及水务文本,能够抽取大量特定的水务概念词,为水务知识图谱的构建打下坚实的基础。
2.本发明在水务概念词层次结构关系构建阶段,根据概念词在CN-Dbpedia中的上位类型信息,可以得到该概念词对应的上级概念,解决了水务知识图谱层次关系方面构建的难题。
3.本发明在水务领域知识图谱完善阶段,挂接大量水务结构化数据库表以及非结构化的文本,对水务知识图谱做内容上的补充。
附图说明
图1为本发明一种基于中文文本的水务领域知识图谱构建方法的流程图。
图2为步骤4的具体流程图。
图3为步骤8的具体流程图。
图4以及图5为步骤8-3的结果图。
图6为水务领域知识图谱部分展开图。
具体实施方式
本发明提供一种基于中文文本的水务领域知识图谱构建方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1。图1为本发明一种一种基于中文文本的水务领域知识图谱构建方法较佳实施例的流程图,如图所示,其实施步骤,包括如下:
步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中。
步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改。
步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。
由图4可以看出,基于编辑距离算法的挂接结构化数据库表的准确率、召回率以及F值都是最高的。由图5可以看出,虽然LDA算法的召回率没有LSI算法高,但是其准确率以及F值比其它两种算法都搞。所以结合两种结果可以看出本发明提出的结构化数据库表以及水务文本的挂接算法对于水务知识图谱的完善具有较好的效果。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (6)
1.一种中文文本的水务领域知识图谱构建方法,其特征在于:该方法主要包括如下步骤:
步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中;
步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改;
步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。
2.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤1所述的构建水务概念词库的方法,其步骤具体包括:
步骤1-1:使用python从水务博客以及水务文档中爬取一些水务文本;
步骤1-2:用python中的jieba工具对抽取的水务文本进行文本分词;
步骤1-3:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关概念词;
步骤1-4:用TF-IDF方法对水务相关概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的概念词。
3.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤2所述的构建概念层次关系的方法,其步骤具体包括:
步骤2-1:输出的概念词与CN-Dbpedie接口连接,提取出概念词的上级词汇,构建概念的等级结构层次关系,并保存到数据库中,根据备选概念词和专家知识对概念等级结构进行修改;
步骤2-2:用jena工具将保存到数据库中的概念信息表写成owl文件。
4.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤3所述的在protégé中实现可视化并挂接水务信息的方法,其步骤具体包括:
步骤3-1:将owl文件导入到protégé软件中,实现水务领域知识图谱的可视化;
步骤3-2:运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,以完善水务领域知识图谱,形成最终的水务知识图谱。
5.根据权利要求2所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤1-4所述的用TF-IDF选取水务相关概念词方法,其步骤具体包括:
步骤1-4-1:计算词语ti的词频其中ni,j是词语ti在文档dj中出现的次数,∑knk,j是在文档dj中所有字词的出现次数之和;
步骤1-4-2:计算逆向文件频率其中|D|为语料库中的文档总数,|{j:ti∈dj}|为包含该词的文档数;
步骤1-4-3:计算tf-idf值:TF-IDFi,j=TFi,j×IDFi;
步骤1-4-4:令i=i+1重复前四步,计算出所有文档中每个词的tf-idf值;
步骤1-4-5:根据概念词权重值情况设定一个阈值,保留权重大于阈值的概念词。
6.根据权利要求4所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤3-2所述的运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,其步骤具体包括:
步骤3-2-1:分别用编辑距离算法、Jaccard算法以及欧氏距离算法计算结构化数据库表与水务知识图谱概念词之间的相似度;
步骤3-2-2:分别用TF-IDF+余弦相似度算法、LSI算法以及LDA算法计算水务文本与水务知识图谱概念词之间的相似度;
步骤3-2-3:分别计算结构化数据库表以及水务文本挂接算法结果的查准率P、召回率R以及精确值和召回率的调和均值F,以评估算法,计算公式分别如下:
查准率:
召回率:
精确值和召回率的调和均值:
步骤3-2-4:选取评估结果最好的一种结构化数据库表挂接算法以及一种非结构化水务文本的挂接算法,分别在水务知识图谱中对这两种数据进行挂接,得到最终完善的水务知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810665703.4A CN108984647A (zh) | 2018-06-26 | 2018-06-26 | 一种基于中文文本的水务领域知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810665703.4A CN108984647A (zh) | 2018-06-26 | 2018-06-26 | 一种基于中文文本的水务领域知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108984647A true CN108984647A (zh) | 2018-12-11 |
Family
ID=64538191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810665703.4A Pending CN108984647A (zh) | 2018-06-26 | 2018-06-26 | 一种基于中文文本的水务领域知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108984647A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800288A (zh) * | 2019-01-22 | 2019-05-24 | 杭州师范大学 | 一种基于知识图谱的科学研究热点分析与预测方法 |
CN109902185A (zh) * | 2019-03-05 | 2019-06-18 | 北京工业大学 | 一种基于DBpedia的水务领域概念知识图谱构建方法 |
CN110377758A (zh) * | 2019-07-17 | 2019-10-25 | 江南大学 | 一种基于知识图谱的招投标网页信息解析方法 |
CN110928984A (zh) * | 2019-09-30 | 2020-03-27 | 珠海格力电器股份有限公司 | 一种知识图谱的构建方法、装置、终端及存储介质 |
CN111522960A (zh) * | 2020-03-16 | 2020-08-11 | 河海大学 | 一种水知识概念图谱模型构建方法 |
CN112100396A (zh) * | 2020-08-28 | 2020-12-18 | 泰康保险集团股份有限公司 | 一种数据处理方法和装置 |
CN112860913A (zh) * | 2021-02-24 | 2021-05-28 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN113094514A (zh) * | 2021-04-13 | 2021-07-09 | 北京工业大学 | 一种基于领域知识图谱的水务数据智能发现方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002027536A1 (en) * | 2000-09-25 | 2002-04-04 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN106354708A (zh) * | 2015-07-13 | 2017-01-25 | 中国电力科学研究院 | 一种基于用电信息采集系统的客户互动信息搜索引擎系统 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN106991284A (zh) * | 2017-03-31 | 2017-07-28 | 南华大学 | 智能育儿知识服务方法及系统 |
-
2018
- 2018-06-26 CN CN201810665703.4A patent/CN108984647A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002027536A1 (en) * | 2000-09-25 | 2002-04-04 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
CN101308498A (zh) * | 2008-07-03 | 2008-11-19 | 上海交通大学 | 文本集合可视化系统 |
CN106354708A (zh) * | 2015-07-13 | 2017-01-25 | 中国电力科学研究院 | 一种基于用电信息采集系统的客户互动信息搜索引擎系统 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN106991284A (zh) * | 2017-03-31 | 2017-07-28 | 南华大学 | 智能育儿知识服务方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘 梅 等: "北京"智慧水务"框架下的数据资源体系研究", 《水利信息化》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800288A (zh) * | 2019-01-22 | 2019-05-24 | 杭州师范大学 | 一种基于知识图谱的科学研究热点分析与预测方法 |
CN109800288B (zh) * | 2019-01-22 | 2020-12-15 | 杭州师范大学 | 一种基于知识图谱的科学研究热点分析与预测方法 |
CN109902185A (zh) * | 2019-03-05 | 2019-06-18 | 北京工业大学 | 一种基于DBpedia的水务领域概念知识图谱构建方法 |
CN110377758A (zh) * | 2019-07-17 | 2019-10-25 | 江南大学 | 一种基于知识图谱的招投标网页信息解析方法 |
CN110928984A (zh) * | 2019-09-30 | 2020-03-27 | 珠海格力电器股份有限公司 | 一种知识图谱的构建方法、装置、终端及存储介质 |
CN111522960A (zh) * | 2020-03-16 | 2020-08-11 | 河海大学 | 一种水知识概念图谱模型构建方法 |
CN112100396A (zh) * | 2020-08-28 | 2020-12-18 | 泰康保险集团股份有限公司 | 一种数据处理方法和装置 |
CN112100396B (zh) * | 2020-08-28 | 2023-10-27 | 泰康保险集团股份有限公司 | 一种数据处理方法和装置 |
CN112860913A (zh) * | 2021-02-24 | 2021-05-28 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN112860913B (zh) * | 2021-02-24 | 2024-03-08 | 广州汇通国信科技有限公司 | 一种知识图谱的本体创建方法 |
CN113094514A (zh) * | 2021-04-13 | 2021-07-09 | 北京工业大学 | 一种基于领域知识图谱的水务数据智能发现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984647A (zh) | 一种基于中文文本的水务领域知识图谱构建方法 | |
Ai et al. | A vector field model to handle the displacement of multiple conflicts in building generalization | |
Bradshaw et al. | GIS-based material stock analysis (MSA) of climate vulnerabilities to the tourism industry in Antigua and Barbuda | |
Mao et al. | Management system for dam-break hazard mapping in a complex basin environment | |
Ji et al. | Evaluation of the impact of ecological water supplement on groundwater restoration based on numerical simulation: a case study in the section of Yongding River, Beijing Plain | |
Harshasimha et al. | Flood vulnerability mapping using maxent machine learning and analytical hierarchy process (AHP) of Kamrup Metropolitan District, Assam | |
Hassan et al. | Dynamics of the modified n-degree Lorenz system | |
Zhao et al. | Spatial-temporal characteristic analysis of ethnic toponyms based on spatial information entropy at the rural level in Northeast China | |
Caraballo et al. | Controllability for neutral stochastic functional integrodifferential equations with infinite delay | |
Shiralashetti et al. | Modified wavelet full-approximation scheme for the numerical solution of nonlinear volterra integral and integro-differential equations | |
Liu et al. | A heterogeneous geospatial data retrieval method using knowledge graph | |
Semian et al. | Name as a regional brand: The case of Local Action Groups in Czechia | |
Guo et al. | A method for constructing geographical knowledge graph from multisource data | |
Zuo et al. | Solutions to Difficult Problems Caused by the Complexity of Human–Water Relationship in the Yellow River Basin: Based on the Perspective of Human–Water Relationship Discipline | |
Bing et al. | LAV path planning by enhanced fireworks algorithm on prior knowledge | |
Li et al. | Impact Analysis of Land Use and Land Cover Change on Karez in Turpan Basin of China | |
Lin et al. | A Study on the Implicit Structure of Historical Environment in Urban Space of Xuzhou | |
Li et al. | Inundation analysis of reservoir flood based on computer aided design (CAD) and digital elevation model (DEM) | |
Liu et al. | Green space optimization strategy to prevent urban flood risk in the city centre of Wuhan | |
Wan et al. | Agricultural product recommendation model based on BMF | |
Xia et al. | Exploring the Spatial–Temporal Analysis of Coastline Changes Using Place Name Information on Hainan Island, China | |
Wang et al. | The Transformation and Development Strategy of Waterside Villages through Transport System Reconstruction: A Case Study of Anxin County, Hebei Province, China | |
Mookherjee et al. | Urban-regional dualism in India: an exploration of developmental indicators across urban size classes | |
Schmitt | Spatial modeling issues in future smart cities | |
Chakraborty et al. | Evolution of Bagbazar Street Through Visibility Graph Analysis (1746–2020) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |