CN116383395A

CN116383395A - 一种水文模型领域知识图谱的构建方法

Info

Publication number: CN116383395A
Application number: CN202211691184.1A
Authority: CN
Inventors: 周逸凡; 赵红莉; 段浩; 赵慧子; 杨永森; 李豪; 甘甜; 朱浩; 贺君彦; 李秋菊; 韩昆; 冶运涛; 曹引; 徐浩玮; 韩成昕; 蒋云钟
Original assignee: China Institute of Water Resources and Hydropower Research
Current assignee: China Institute of Water Resources and Hydropower Research
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-07-04

Abstract

本发明公开了一种水文模型领域知识图谱的构建方法，包括以下步骤：步骤1、确定水文模型领域知识图谱本体及概念关系，构建水文模型知识本体；步骤2、从CNKI下载水文模型领域中文期刊论文并转换为文本数据，基于构建的水文模型本体进行数据标注，构建水文模型数据集；步骤3、基于Bert模型构建水文模型领域命名实体识别模型，并对构建的数据集进行实体抽取和关系匹配，完成水文模型知识抽取；本发明面向水文科研人员的研究需要，帮助其快速了解水文模型知识、梳理水文模型发展脉络、查询水文模拟案例。

Description

一种水文模型领域知识图谱的构建方法

技术领域

本发明涉及领域知识图谱构建领域，特别涉及一种水文模型领域知识图谱的构建方法。

背景技术

知识图谱的概念最早于2012年由谷歌公司提出，其本质上是一种结构化的语义网络知识库。知识图谱的核心要义是通过可视化的图形向用户返回经过加工和推理的知识(刘峤，2016)随着智能信息服务应用的不断发展，知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域，

知识图谱，是由互相连接的实体和它们的关系构成的。将知识图谱技术应用于水利领域，使用水利文本数据构建水利专业知识图谱，可以利用结构化的水利专业知识建立知识驱动的分析模型及应用系统，提高水利信息处理的智能化程度。熊永兰等最早将知识图谱引入水利领域，利用VOSviewer软件研究水文化的变迁(熊永兰，2014)；金菊良等采用共著分析和共现分析等文献计量可视化分析方法，对水资源承载力研究领域的知识图谱进行构建和分析，综述了水资源承载力的研究进展(金菊良，2019)；毛文山等以CiteSpace为基础，采用定性分析与定量研究结合的信息分析方法，构建了国内水生态环境研究知识图谱，分析出国内水生态环境研究领域的研究主题、热点和前沿(毛文山，2019)；段浩等将各类水利业务与学科知识数据，进行多源异构实体融合，形成水利综合知识的建模和表达，构建了水利综合知识图谱，基于该图谱实现水利知识的跨域查询与检索，提高水利知识检索的效率和知识挖掘发现的能力(段浩，2021)。

然而由于水利各学科不同方向业务的知识体系存在知识结构上的差异，不同方向水利业务的实体对象具有不同的特征和模式，因此不同水利业务小领域知识图谱的构建还没有通用的模型算法。为了探索一种通用的水利业务知识图谱自顶向下设计的模式，本文选取水利学科知识中的水文模型知识体系为例，面向水文科研工作者的研究需要，构建水文模型领域知识图谱，帮助其快速了解水文模型知识、梳理水文模型发展脉络、查询应用案例等知识。

发明内容

本发明面向水文科研工作者的研究需要，通过知识图谱实现水文模型知识、水文模型发展脉络、水文模型应用案例等知识的快速检索，提出了一种水文模型领域的知识图谱构建方法。

具体技术方案如下：

一种水文模型领域知识图谱的构建方法，包括以下步骤：

步骤1、确定水文模型领域知识图谱本体及概念关系，构建水文模型知识本体；

步骤2、从CNKI下载水文模型领域中文期刊论文并转换为文本数据，基于构建的水文模型领域知识图谱本体进行数据标注，构建水文模型数据集；

步骤3、基于Bert模型构建水文模型领域命名实体识别模型，并对构建的水文模型数据集进行实体抽取和关系匹配，完成水文模型知识抽取；

步骤4、对水文模型实体进行数据融合，解决在水文模型论文中不同专业模型的共指问题，并对模拟结果的评价指标进行归纳分级；

步骤5、选择Neo4j图数据库进行水文模型知识抽取结果的管理，并在此基础上进行知识图谱查询应用。

优选地，步骤1包括以下子步骤：

步骤11、梳理水文模型知识体系，总结术语概念；

步骤12、确定本体及本体层次；

步骤13、定义本体不同概念间的层级关系。

优选地，步骤2包括以下子步骤：

步骤21、指定关键词，从CNKI下载水文模型领域相关中文文献，由python PDF解析工具转换为文本数据，进行数据清洗，去除数据杂音；

步骤22、采用BMOES法人工标注目标实体，结合模式匹配的方式对文本进行过滤，通过分句算法得到完整短句，使实体在不同的句子中满足均匀分布；

步骤23、将句子按照7：2：1的比例生成训练集、测试集、验证集作为模型输入数据。

优选地，步骤3包括以下子步骤：

步骤31、采用Bert模型进行命名实体识别，对输入训练语料的模型进行训练，模型预测的实体包括：人名、地名、机构名、站点实体、水文要素实体、指标实体、模型实体和时间实体；

步骤32、对模型实体存在大量的中英混合实体使用词典匹配和模式识别的方式混合识别，使用正则表达式子进行匹配规则的设计；

步骤33、对时间实体和数值实体使用LAC工具进行识别；

步骤34、综合训练文本在文章中的位置及模型结构，赋予各抽取方法不同的权重，对抽取结果进行统计和排序后作为预测模型实体的一部分，同时对抽取结果按照定义的实体间关系进行匹配。

优选地，步骤4包括以下子步骤：

步骤41、对评价指标进行分级处理，列出一级、二级指标，与对应的同义指标，列入表格；

步骤42、人工整理出文本中每一类模型实体的所有共指项，列入表格；

步骤43、读取表格数据，将共指项与确定的标准名称对齐归类，更新模型与评价指标词典；

步骤44、用词典更新抽取的实体。

优选地，步骤5包括以下子步骤：

步骤51、水文模型知识图谱的存储采用Neo4j数据库，数据的存储包含节点和关系两种基本类型；

步骤52、基于可视化工具对水文模型数据进行图谱可视化，基于数据库查询语言实现图谱数据查询检索。

与现有技术相比，本发明的有益效果如下：

1.本发明在水利领域知识图谱构建研究不足的背景下，梳理水文模型知识体系，构建水文模型本体关系；

2.本发明在知识抽取步骤中使用了预训练语言模型与多策略结合的方法进行命名实体识别，相比较现有水利领域知识图谱基于规则与统计分析或者基于神经网络的深度学习的方法相比，预训练语言模型Bert拥有对语义更好的表征，并对部分特殊命名或识别效果较差的实体采用模式匹配、工具识别等多策略方法提高抽取精度。

3.水文模型知识图谱的构建为水利领域知识抽取提供了完整的技术方案，为提高水利管理的智能化水平提供了重要技术支撑。

附图说明

图1为本发明所述水文模型领域知识图谱构建的流程示意图。

图2为本发明所述水文模型领域知识图谱的实体关系图。

图3为本发明所述知识抽取模型示意图。

图4为本发明所述实体抽取精度。

图5为本发明所述模型实体对齐示例图。

图6为本发明所述知识存储与可视化示例图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种水文模型知识图谱的构建方法，包括：

步骤1、确定水文模型领域知识图谱本体及概念关系，构建水文模型知识本体。

步骤2、从CNKI下载水文模型领域中文期刊论文并转换为文本数据，基于构建的水文模型本体进行数据标注，构建水文模型数据集。

步骤3、基于Bert模型构建水文模型领域命名实体识别模型，并对构建的数据集进行实体抽取和关系匹配，完成水文模型知识抽取。

步骤4、对水文模型实体进行数据融合，重点解决在水文模型论文中不同专业模型的共指问题，并对模拟结果的评价指标进行归纳分级。

以下是对上述流程的具体分析：

a、确定水文模型领域知识图谱本体及概念关系，构建水文模型知识本体。

根据对水文模型知识的理解，总结水文模型领域重要术语与概念，对水文模型知识进行梳理。在水文模型知识体系中，事实类知识包括了流域、河流等自然对象，水库、测站等工程对象，研究者与机构等社会对象；认知类知识包括了水文模型、模拟区域、模型时间等水利概念与对概念的描述内容。

根据专业术语与领域知识理解确定本体及本体层次，定义本体的关系如图2所示。在水文模型的发展演变方面，水文模型间存在“继承”关系；在各水文模拟研究案例中，不同水利对象间通过关联构成水文模型领域知识，如“模型”与“模拟区域”间的“模拟”关系，“模拟区域”与天然流域间的“所属流域”关系，模拟者与机构的“任职于”关系等。

b、从CNKI下载水文模型领域中文期刊论文并转换为文本数据，基于构建的水文模型本体进行数据标注，构建水文模型数据集。

以“水文模型”为关键词在CNKI对近20年中文文献进行检索，累计检索883篇水文模型领域期刊论文。基于文本解析工具将下载的文献转换为文本文件，并对数据进行清洗去噪，得到可用来进行文本分析的数据。

结合在本体设计中定义的水文模型实体，基于模式匹配的方式对解析后的文本过滤清洗，并利用BMOES法进行人工标注，构建模型训练需要的数据集。

实体在不同的句子中，也要满足均匀分布，对标注的句子按照7：2：1的比例生成训练集、测试集、验证集作为模型输入数据。生成的训练集包含4850个句子、测试集包含1368个句子、验证集包含692个句子。

c、基于Bert模型构建水文模型领域命名实体识别模型，并对构建的数据集进行实体抽取和关系匹配，完成水文模型知识抽取。

构建Bert模型，将构建好的数据集输入模型训练如图3所示。超参数设置epoch为10，batchsize为32，序列最大输入长度为128，储存步数为425。预训练模型为pytorch框架下的Bert-base-chinese。

对水文模型实体存在大量的中英混合实体使用词典匹配和模式识别的方式混合识别，用re.findall正则表达模块设计规则。如re.findall(r'[a-zA-Z]*.*模型',text)，模型会自动匹配text中“英文+模型”命名模式的实体，如“VIC模型”。对部分时间实体和数值实体使用LAC工具识别，如水文模型模拟的纳什效率系数指标值等。

利用训练的模型对水利专业文献数据进行知识抽取，并得到抽取结果，共计抽取水利实体64978个，水利关联关系188,963条。实体抽取精度使用召回率(recall)、精确率(Precision)、F1值(H-mean值)作为评价指标如图4所示，评估知识抽取的准确性。

d、对水文模型实体进行数据融合，重点解决在水文模型论文中不同专业模型的共指问题，并对模拟结果的评价指标进行归纳分级。

由于水文模型论文撰写带有一定主观性，不同作者对模型名称、模型评价指标的描述不尽一致，因此在抽取中需对其进行分类汇总，制作相关词典，来提升知识抽取的合理性。

在水文模型的评价方面，对文献中的评价指标进行分级，一级指标包括“确定性系数”、“纳什效率系数”、“相关系数”等；二级指标中，“确定性系数”可包括“决定系数”、“确定系数”等，“纳什效率系数”可包括“NS效率系数”、“Nash确定性系数”、“NSE效率系数”等。对评价指标进行总结归纳，整理同义指标并分级列入表格。

在对水文模型的分类上，同样存在实体共指的情况，如“SWAT模型”在不同的论文中可存在“SWAT”、“SWAT分布式水文模型”、“SWAT流域水文模型”等不同写法。人工整理出所有模型实体的共指项如图5所示，将共指项与确定的标准名称对齐归类，更新模型与评价指标词典，提升对水文模型知识抽取的准确性和合理性。

e、选择Neo4j图数据库进行水文模型知识抽取结果的管理，并在此基础上进行知识图谱查询应用。

对水利科技论文进行知识抽取后，得到水文模型领域实体64978个，关系188,963条，将这些三元组数据导入Neo4j图数据库中进行存储，构建可视化的水文模型知识图谱，通过Echarts可视化工具，实现水文模型知识图谱的可视化与检索应用如图6所示。

Claims

1.一种水文模型领域知识图谱的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的水文模型知识图谱构建方法，其特征在于，所述步骤1包括以下子步骤：

步骤11、梳理水文模型知识体系，总结术语概念；

步骤12、确定本体及本体层次；

步骤13、定义本体不同概念间的层级关系。

3.根据权利要求1所述的水文模型知识图谱构建方法，其特征在于，所述步骤2包括以下子步骤：

4.根据权利要求1所述的水文模型知识图谱构建方法，其特征在于，所述步骤3包括以下子步骤：

步骤33、对时间实体和数值实体使用LAC工具进行识别；

5.根据权利要求1所述的水文模型知识图谱构建方法，其特征在于，所述步骤4包括以下子步骤：

步骤44、用词典更新抽取的实体。

6.根据权利要求1所述的水文模型知识图谱构建方法，其特征在于，所述步骤5包括以下子步骤：