CN113094514A - 一种基于领域知识图谱的水务数据智能发现方法 - Google Patents
一种基于领域知识图谱的水务数据智能发现方法 Download PDFInfo
- Publication number
- CN113094514A CN113094514A CN202110391919.8A CN202110391919A CN113094514A CN 113094514 A CN113094514 A CN 113094514A CN 202110391919 A CN202110391919 A CN 202110391919A CN 113094514 A CN113094514 A CN 113094514A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge graph
- water affair
- information
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000007430 reference method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于领域知识图谱的水务数据智能发现方法,该方法包括如下步骤:构建水务信息知识图谱,该知识图谱中包含了领域的概念、实体、实体与实体之间的信息;总结领域数据的特征信息,包括时间信息、空间信息、数据类型等特征。针对水务数据集的特征信息,利用水务知识图谱中的概念或者实体对领域数据进行标注。利用Jena并制定语义推理规则对水务知识图谱进行语义推理以发现原来知识图谱中没有的领域知识。利用排序技术对数据进行排序,得到用户想要的数据。本发明面对海量、多类型的水务数据,总结了一套完整的数据发现推荐方法,可以帮助专业人员更准确地发现自己想要的信息。
Description
技术领域
本发明属于知识图谱构建及应用领域,涉及一种基于领域知识图谱的水务数据智能发现方法。
背景技术
随着水利信息的发展,通过先进的采集设备和技术,我们采集到了大量的水环境实时数据。同时,网络上由用户产生的数据以及一些开放链接数据都在不断产生。但是,专业人员和用户想要获取自己需要的数据时,通过关键词的搜索并不能得到想要的结果。知识图谱是一种大规模的语义网络。2012年谷歌提出知识图谱的概念是为了提高其搜索质量。对于现在知识图谱的构建,已经出现了许多通用知识图谱和领域知识图谱,典型的有百度的“知心”、搜狗的“知立方”、SciKG、LikedMDB等。领域知识图谱的深度还有待进一步深入。对于知识图谱相关的应用,2016年李威蓉等人构建了地理空间数据来源本体来提高地理空间数据的检索质量。2015年冯钧等以《水利公文主题词表》构建的本体为基础对水利信息进行检索。但是,该研究中构建的知识库信息缺乏,并不能很好的涵盖这个领域,进而达到很好的检索效果。
发明内容
有鉴于上述现有的不足,本发明的目的在于提供一种基于领域知识图谱的水务数据智能发现方法构建方法。本方法首先构建水务知识图谱,然后利用知识图谱对领域数据做标注,最后基于知识图谱对用户输入的关键词进行解析进而得到排序后的数据,提高了数据的发现质量。
为了解决上述问题,本发明采用如下的技术方案:一种基于领域知识图谱的水务数据智能发现方法包括一下步骤:
步骤1:利用现有百科非结构化数据,数据库中的结构化数据和文本中的结构化数据构建知识图谱。
步骤2:采集水务相关数据,并利用知识图谱对数据做标注。
步骤3:对数据进行检索。首先对用户数据的关键词进行识别,然后利用Jena解析知识图谱发现其关联信息进而得到用户想要的数据,最后对数据进行排序。
进一步的,本发明步骤1所述的构建知识图谱的方法,其步骤具体包括:
步骤1-1:利用TFIDF算法从专业文献中抽取领域的重要术语,基于这些术语利用参照法(标杆对照、业务适配、增补裁剪)梳理出水务知识图谱的实体类型。
步骤1-2:利用参照法梳理出水务知识图谱的实体关系类型。
步骤1-3:利用现有的数据库中的结构化数据库中的数据填充知识图谱的实例信息。如果出现新的实体类型,则返回步骤1,添加新的实体类型。
步骤1-4:抽取现有知识库CN-DBpedia中的实体信息来丰富水务知识图谱中的属性信息。
步骤1-5:利用深度学习的方法来抽取水务实体之间的关系,丰富知识图谱的关系类型。如果有出现新的实体关系类型,则回到步骤2,添加新的实体关系类型。
进一步的,本发明步骤2所述的数据标注方法,其步骤具体包括:
步骤2-1:在网上或者专业数据库中收集水务领域的数据集,记录它的元数据。同时,要分析这些数据集的特征,时间特征、空间特征和来源特征等。
步骤2-2:利用构建的水务知识图谱中的概念或者实例去标注步骤2-1中收集的水务数据的特征。
进一步的,本发明步骤3所述的数据检索方法,其步骤具体包括:
步骤3-1:首先对检索条件进行预处理,首先对查询关键词进行分词得到语义项,然后利用同义词典映射的方法将这些语义项映射到知识图谱的该概念或者实体。
步骤3-2:利用Jena自带的推理规则和自定义的推理规则推理出水务知识图谱中原来没有的三元组信息。
步骤3-3:利用Jena解析知识图谱,查找与被检索语义项相关联的实体信息,进而查找到相关数据集。
步骤3-4:利用定义好的排序规则,对检索出的数据集进行排序。这里的排序规则指的是:数据集的权重是由与数据集相关联的语义项的权重决定的。这些权重由人为经验决定,比如:定义“相同”实体关系类型的权重为1,“包含”的权重0.8,“相离”的权重为0.7。数据集按权重从高到低排序。
步骤3-5:评估检索的效果。
进一步的步骤3-5的评测指标:使用信息检索常用的三项指标:查准率P、查全率R、以及综合评价指标F来评价数据发现的效果。计算公式分别如下:
其中TP指的是查询到的相关数据总数,FP指的是系统中相关数据总数,FN指的是系统返回的数据总数。
本发明是一种基于领域知识图谱的水务数据智能发现方法。
有益效果:
1.在知识图谱构建阶段,本发明面对没有领域专家的情况,能够在短时间内总结出知识图谱的框架,即知识图谱的实体关系类型和知识图谱的实体关系类型,为下一步打下了坚实的基础。
2.在知识图谱构建的实体关系抽取阶段,本发明可以在知识图谱的对象缺乏关系时,从文本中提取水务实体和实体之间的关系,从而为下一步利用知识图谱对领域数据检索打下了坚实的基础。
3.利用领域知识图谱提高了水务数据检索的质量,可以帮助专业技术人员更好地发现自己想要的数据。
附图说明
图1为本发明水务知识图谱的构建流程图。
图2为水务知识图谱的部分实体类型。
图3为水务知识图谱的部分实体关系类型。
图4水务语义类型图。
图5水务关系类型。
图6数据发现流程图。
图7基于知识图谱的水务数据发现流程图。
具体实施方式
本发明提供了一种基于领域知识图谱的水务数据智能发现方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1。图1为本发明中构建水务知识图谱的流程图,图中首先用参照法构建了知识图谱的实体类型和关系类型。这里参照的对对象就是UMLS。UMLS的实体关系类型如图2所示。它的关系类型如图3所示。统一医学语言系统(Unified Medical LanguageSystem,UMLS)是美国国立医学图书馆持续开发了20多年的巨型医学术语系统,涵盖了临床、基础、药学、生物学、医学管理等医学及与医学相关学科,收录了约200万个医学概念,医学词汇更是空前,达到了500多万个。
UMLS规定了语义的类型分为两个大类,实体和事件。实体分为概念实体和物理实体。事件分为现象或过程和活动。语义类型分为相关关系和功能上的关系。我们在构建水务知识图谱的时候可以参照UMLS的结构来对水务的实体和关系类型进行划分,没有的进行添加,多余的进行裁剪。最终构建出的知识图谱的部分结构如图4和图5所示。
请参照图6,为水务数据的发现流程图。首先对用户要搜索的关键字进行预处理,这里的预处理包括分词、同义词典的映射等。然后利用推理过后的水务知识图谱对资源进行检索,最后利用排序算法对数据进行排序。
图7为基于知识图谱的水务数据发现流程图。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (4)
1.一种基于领域知识图谱的水务数据智能发现方法,其特征在于:该方法主要包括如下步骤,
步骤1:利用现有百科非结构化数据,数据库中的结构化数据和文本中的结构化数据构建知识图谱;
步骤2:采集水务相关数据,并利用知识图谱对数据做标注;
步骤3:对数据进行检索;首先对用户数据的关键词进行识别,然后利用Jena解析知识图谱发现其关联信息进而得到用户想要的数据,最后对数据进行排序。
2.根据权利要求1所述的一种基于领域知识图谱的水务数据智能发现方法,其特征在于:步骤1所述的构建知识图谱的方法,其步骤具体包括:
步骤1-1:利用TFIDF算法从专业文献中抽取领域的重要术语,基于这些术语利用参照法(标杆对照、业务适配、增补裁剪)梳理出水务知识图谱的实体类型;
步骤1-2:利用参照法梳理出水务知识图谱的实体关系类型;
步骤1-3:利用现有的数据库中的结构化数据库中的数据填充知识图谱的实例信息;如果出现新的实体类型,则返回步骤1,添加新的实体类型;
步骤1-4:抽取现有知识库CN-DBpedia中的实体信息来丰富水务知识图谱中的属性信息;
步骤1-5:利用深度学习的方法来抽取水务实体之间的关系,丰富知识图谱的关系类型;如果有出现新的实体关系类型,则回到步骤2,添加新的实体关系类型。
3.根据权利要求1所述的一种基于领域知识图谱的水务数据智能发现方法,其特征在于:步骤2所述的数据标注方法,其步骤具体包括:
步骤2-1:在网上或者专业数据库中收集水务领域的数据集,记录它的元数据;同时,要分析这些数据集的特征,时间特征、空间特征和来源特征等;
步骤2-2:利用构建的水务知识图谱中的概念或者实例去标注步骤2-1中收集的水务数据的特征。
4.根据权利要求1所述的一种基于领域知识图谱的水务数据智能发现方法,其特征在于:步骤3所述的数据检索的方法,其步骤具体包括:
步骤3-1:首先对检索条件进行预处理,首先对查询关键词进行分词得到语义项,然后利用同义词典映射的方法将这些语义项映射到知识图谱的该概念或者实体;
步骤3-2:利用Jena自带的推理规则和自定义的推理规则推理出水务知识图谱中原来没有的三元组信息;
步骤3-3:利用Jena解析知识图谱,查找与被检索语义项相关联的实体信息,进而查找到相关数据集;
步骤3-4:利用定义好的排序规则,对检索出的数据集进行排序;
这里的排序规则指的是:数据集的权重是由与数据集相关联的语义项的权重决定的;这些权重由人为经验决定,比如:定义“相同”实体关系类型的权重为1,“包含”的权重0.8,“相离”的权重为0.7;数据集按权重从高到低排序;
步骤3-5:评估检索的效果;
进一步的步骤3-5的评测指标:使用信息检索常用的三项指标:查准率P、查全率R、以及综合评价指标F来评价数据发现的效果;计算公式分别如下:
其中TP指的是查询到的相关数据总数,FP指的是系统中相关数据总数,FN指的是系统返回的数据总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110391919.8A CN113094514A (zh) | 2021-04-13 | 2021-04-13 | 一种基于领域知识图谱的水务数据智能发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110391919.8A CN113094514A (zh) | 2021-04-13 | 2021-04-13 | 一种基于领域知识图谱的水务数据智能发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113094514A true CN113094514A (zh) | 2021-07-09 |
Family
ID=76676356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110391919.8A Pending CN113094514A (zh) | 2021-04-13 | 2021-04-13 | 一种基于领域知识图谱的水务数据智能发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094514A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114300128A (zh) * | 2021-12-31 | 2022-04-08 | 北京欧应信息技术有限公司 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
CN116702902A (zh) * | 2023-04-14 | 2023-09-05 | 长江水利委员会水文局 | 一种水文数据图谱推理与知识库构建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379755A1 (en) * | 2013-03-21 | 2014-12-25 | Infosys Limited | Method and system for translating user keywords into semantic queries based on a domain vocabulary |
CN108984647A (zh) * | 2018-06-26 | 2018-12-11 | 北京工业大学 | 一种基于中文文本的水务领域知识图谱构建方法 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
CN109902185A (zh) * | 2019-03-05 | 2019-06-18 | 北京工业大学 | 一种基于DBpedia的水务领域概念知识图谱构建方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
-
2021
- 2021-04-13 CN CN202110391919.8A patent/CN113094514A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379755A1 (en) * | 2013-03-21 | 2014-12-25 | Infosys Limited | Method and system for translating user keywords into semantic queries based on a domain vocabulary |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
CN108984647A (zh) * | 2018-06-26 | 2018-12-11 | 北京工业大学 | 一种基于中文文本的水务领域知识图谱构建方法 |
CN109902185A (zh) * | 2019-03-05 | 2019-06-18 | 北京工业大学 | 一种基于DBpedia的水务领域概念知识图谱构建方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
Non-Patent Citations (2)
Title |
---|
JIANZHUO YAN等: "Construction and Recommendation of a Water Affair Knowledge Graph", SUSTAINABILITY, 26 September 2018 (2018-09-26), pages 1 - 15 * |
李涛 等: "知识图谱的发展与构建", 南京理工大学学报, no. 01, 28 February 2017 (2017-02-28) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114300128A (zh) * | 2021-12-31 | 2022-04-08 | 北京欧应信息技术有限公司 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
CN114300128B (zh) * | 2021-12-31 | 2022-11-22 | 北京欧应信息技术有限公司 | 用于辅助疾病智能诊断的医学概念链接系统及存储介质 |
CN116702902A (zh) * | 2023-04-14 | 2023-09-05 | 长江水利委员会水文局 | 一种水文数据图谱推理与知识库构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
CN101404015B (zh) | 自动生成词条层次 | |
Guo et al. | SOR: An optimized semantic ontology retrieval algorithm for heterogeneous multimedia big data | |
Lin et al. | An integrated approach to extracting ontological structures from folksonomies | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN113094514A (zh) | 一种基于领域知识图谱的水务数据智能发现方法 | |
CN112000790B (zh) | 一种法律文本精确检索方法、终端系统和可读存储介质 | |
Barrio et al. | Sampling strategies for information extraction over the deep web | |
CN111460173B (zh) | 一种甲状腺癌的疾病本体模型的构建方法 | |
JP4534019B2 (ja) | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 | |
Tandjung et al. | Topic modeling with latent-dirichlet allocation for the discovery of state-of-the-art in research: A literature review | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 | |
Zhang et al. | Aggregating large-scale databases for PubMed author name disambiguation | |
CN116595043A (zh) | 一种大数据检索方法及装置 | |
Zeng et al. | Construction of scenic spot knowledge graph based on ontology | |
Bowers et al. | A semantic annotation framework for retrieving and analyzing observational datasets | |
Ahmad et al. | A comparative study on text mining techniques | |
c Neethu et al. | Retrieval of images using data mining techniques | |
Pushpalatha et al. | A tree based representation for effective pattern discovery from multimedia documents | |
Lin et al. | Smart Semantic Query of Design Information in a Case Library | |
Ni | An Intelligent Retrieval Algorithm for Digital Literature Promotion Information Based on TRS Information Retrieval | |
Lu et al. | OnPerDis: Ontology-based personal name disambiguation on the web | |
Devignes et al. | BioRegistry: Automatic extraction of metadata for biological database retrieval and discovery | |
Ghosh et al. | A proposed method for semantic annotation on social media images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |