CN113392223A - 一种基于气象领域的知识图谱构建方法 - Google Patents
一种基于气象领域的知识图谱构建方法 Download PDFInfo
- Publication number
- CN113392223A CN113392223A CN202110525353.3A CN202110525353A CN113392223A CN 113392223 A CN113392223 A CN 113392223A CN 202110525353 A CN202110525353 A CN 202110525353A CN 113392223 A CN113392223 A CN 113392223A
- Authority
- CN
- China
- Prior art keywords
- meteorological
- entity
- knowledge
- words
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于气象领域的知识图谱构建方法,包括:建立气象主题词典;搭建构建知识图谱的语料库;迭代训练实体识别模型进行实体识别;训练关系抽取模型并进行关系抽取;对识别出的实体和关系进行知识融合;构建文献概念知识体系。本方法通过挖掘这些文献知识体系来形成气象知识图谱,从而理解气象知识在各个领域的研究热点、研究方向以及应用,更好的做出相关决策。
Description
技术领域
本发明涉及文本挖掘分析和自然语言处理技术领域,尤其涉及一种基于气象领域知识图谱的构建方法。
背景技术
现有随着经济和社会的发展,气象事业面临着巨大变革,气象与水利、农业、交通、旅游等行业关系密切,与公众生活息息相关。无论是地方政府、行业部门,还是社会公众对气象的依赖程度越来越高,对气象服务的需求越来越强烈。为了深入了解气象资料在不同行业领域方向的科研、发展和应用方面所起的作用和深入程度,加强气象资料在防灾减灾方向上所提供的支撑力度,有必要通过大数据文本挖掘技术,构建气象领域的知识图谱,深入挖掘气象知识在各行各业中的应用以及在防灾减灾相关各个方面关联关系,为气象领域专家决策提供有效支撑。
知识图谱在本质上是一种揭示实体之间关系的语义网络。这种关系包括实体与实体间的关系和实体属性属性值。目前,大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放链接数据(也就是“信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系。
知识图谱常规的构建流程包括数据获取、知识抽取、知识融合、知识加工、知识图谱应用。知识抽取是知识图谱构建环节中中重要的一步,从非结构化的文本数据中抽取{实体、关系、实体}和{实体、属性、属性值}三元组。主要使用到了实体识别技术、关系抽取技术、属性抽取技术。知识融合包括实体链接、实体对齐等。在前面,我们已经通过知识抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而事实本身并不等于知识。要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括三方面内容:本体构建、知识推理和质量评估。然而目前气象研究和应用领域的知识图谱极其少,主要因为气象领域语料比较杂乱,更多的是一些指标数据资料,不利于气象领域专家学者对气象知识的梳理、发现以及气象产品在行业中具体应用的掌握。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于气象领域知识图谱的构建方法。
本发明的目的通过以下的技术方案来实现:
一种基于气象领域知识图谱的构建方法,包括:
步骤A建立气象主题词典;
步骤B搭建构建知识图谱的语料库;
步骤C迭代训练实体识别模型进行实体识别;
步骤D训练关系抽取模型并进行关系抽取;
步骤E对识别出的实体和关系进行知识融合;
步骤F构建文献概念知识体系。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
通过挖掘这些文献知识体系来形成气象知识图谱,从而理解气象知识在各个领域的研究热点、研究方向以及应用,更好的做出相关决策。
附图说明
图1是基于气象领域知识图谱的构建方法流程图;
图2是实体识别流程图;
图3是关系抽取流程图;
图4是构建气象知识图谱流程图;
图5是气象知识图谱效果展示图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于气象领域知识图谱的构建方法,包括:
步骤10建立气象主题词典;
步骤20搭建构建知识图谱的语料库;
步骤30迭代训练实体识别模型进行实体识别;
步骤40训练关系抽取模型并进行关系抽取;
步骤50对识别出的实体和关系进行知识融合;
步骤60构建文献概念知识体系。
上述步骤10包括:
(1)基于HowNet概念关系词表,依据中图分类号选取气象领域的主题词和关系词构成主题词典。主题词典包含了实体词及其相关的关系词,关系包含上位词、下位词、同义词、反义词、相关词等。
(2)从国家气象信息中心网站下载气象主题词表、气象产品血缘表、气象资料分类与编码表、气象要素分类与编码表等资料。
(3)将从国家气象信息中心获取的气象主题词表加入主题词典,PDF,WORD,Excel等格式的非结构化数据文件,提取其中气象词汇作为主题词,在HowNet概念关系词典中挖掘上位词、下位词、同义词、并列词、相关词等,存入mysql数据库中形成气象主题词典。气象主题词表结构如表1;气象资料分类与编码如表2:
表1
其中CONTENT为实体词,CATALOG为中图分类,DOMAIN为词的来源等。
表2
简码 | 地面气象资料要素名称 | 标识符 | 说明 |
000 | 多要素 | MUL | 包含下列两个或两个以上的要素 |
001 | 气压 | PRS | 包括本站气压、海平面气压 |
002 | 气温 | TEM | |
003 | 湿球温度 | WBT | |
004 | 露点温度 | DPT | |
005 | 水汽压 | VAP | |
006 | 相对湿度 | RHU | |
007 | 云 | CLO | 包括云量、云状、云高等 |
008 | 能见度 | VIS | |
009 | 降水 | PRE | |
010 | 天气现象 | WEP | |
011 | 蒸发量 | EVP | |
012 | 地面积雪 | GSS | |
013 | 电线积冰 | ICE | |
014 | 风 | WIN | 风向、风速或风向和风速 |
015 | 地温 | GST | 含浅层、深层地温 |
016 | 冻土 | FRS | |
017 | 日照 | SSD | |
018 | 地面状态 | SCO | |
900~998 | 扩展码 |
(4)将从国家气象信息中心获取的气象产品血缘表中的气象产品加入主题词典并通过HowNet概念关系词典拓展主题词及关系;气象产品血缘表如表3:
表3
(5)提取气象资料分类与编码表、气象要素分类与编码表中气象实体,加入主题词典,并通过HowNet概念关系词典拓展主题词及关系。
(6)将构建好的气象主题词典存入mysql数据库。
得到的气象主题词典如下:
表4
其中WORD为主题词,SUOERWORD为上位词,HYPWORD为下位词,RELATEWORD为相关词,RELATETYPE为相关关系,与相关词对应,SIMIWORD为同义词,COORDINATEWORD为并列词。
上述步骤20具体包括:
(1)选择类型为期刊、硕博论文、会议论文、成果、年鉴的文献,数量要求在1000万篇,并提取标题、作者、机构、中图分类号、时间、摘要、全文等字段数据。
(2)依据中图分类号过滤文献,选取气象学、农业、交通运输、海洋学、建筑等30个与气象相关的专题领域的文献。
(3)基于气象主题词典进一步筛选气象文献,过滤掉摘要中不包含气象主题词的文献。
(4)随机选取过滤后的小部分文的献摘要进行标注,对于文献摘要属于气象相关的文献标注1,不相关的文献标注为0。
(5)使用Bert-BiLSTM-Dense算法训练气象二分类模型。这里使用Bert预训练模型提取文本特征,再用BiLSTM做进一步优化,最后使用全连接层做二分类。
(6)使用训练好的二分类模型筛选语料库中与气象相关的文献;
(7)将符合条件的文献存入mysql数据库,构成图谱所需语料库。
语料库表结构如表5所示:
表5
上述步骤30具体包括:
(1)随机选取语料库中部分语料,将全文切分成句子,使用气象主题词典标注实体识别模型所需训练语料。对预料中出现的气象主题词标注为气象实体,对出现的气象产品词标注产品实体,标注类型采用BIO模式,共B-气象实体、I-气象实体、O、B-气象产品、I-气象产品五个类别标签。
(2)使用基于深度学习的Bert-BiLSTM-CRF算法构建实体识别模型。首先标注语料经过BERT预训练语言模型获得相应的词向量,之后再把词向量输入到BiLSTM模块中做进一步处理,最终利用CRF模块对BiLSTM模块的输出结果进行解码,得到一个预测标注序列,然后对序列中的各个实体进行提取分类,从而完成中文实体识别的整个流程。在命名实体识别任务中,BiLSTM善于处理长距离的文本信息,但无法处理相邻标签之间的依赖关系.而CRF能通过邻近标签的关系获得一个最优的预测序列,可以弥补BiLSTM的缺点。
(3)对识别出的实体经过规则判断校准去重后更新主题词典。
(4)使用更新后的主题词典对语料再次标注,并再次训练更新模型和词典。这里循环标注语料和训练模型目的是使模型能够不断优化以提高实体识别的准确性。
上述步骤40具体包括:
(1)随机选取语料库中部分语料,以句子为单位,基于主题词表中的关系标注关系抽取的训练集。
(2)使用Bert-BiLSTM-Dence训练关系抽取模型,对于关系抽取问题,可以将其视为句子分类任务。
(3)构建基于依存关系的关系抽取模型,这里对句子进行句法分析,构建起动宾结构,以核心词为关系寻找主语和宾语作为两个实体,这里的主语和宾语是识别出来的实体。通过传统的“浅层态”模型来挖掘实体间关系作为深度学习模型的补充;
上述步骤50中知识融合是指融合来自多个数据来源的关于同一个实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。实体消歧主要解决自然语言存在的一词多义和多词一义的现象。实体消歧分为两步,第一步在实体识别和关系识别之前上进行深度学习的消歧;第二主要采用关系词典和主题词典进行匹配消歧。
上述步骤60具体包括:
(1)基于图分类号转换国民经济行业分类规则,对文献打上行业标签,对构建(E1,R,E2)三元组,这里E1代表标题,R代表行业关系,E2代表行业。
(2)对文献识别出的气象实体建立(E1,R,E2)三元组,E1代表标题,R代表包含关系,E2代表实体;
(3)对文献识别出的实体关系建立(E1,R,E2)三元组,E1代表实体,R代表实体关系,E2代表实体。
(4)分别从数据库提取文献作者,机构,时间等数据,建立(E1,R,E2)三元组,E1代表标题,R代表作者/机构/时间关系,E2代表作者实体/机构实体/时间实体等组成文献基本信息。
(5)将以上构建的这些三元组写入分别按照实体、关系写入csv文件。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (6)
1.一种基于气象领域的知识图谱构建方法,其特征在于,所述方法包括:
步骤A建立气象主题词典;
步骤B搭建构建知识图谱的语料库;
步骤C迭代训练实体识别模型进行实体识别;
步骤D训练关系抽取模型并进行关系抽取;
步骤E对识别出的实体和关系进行知识融合;
步骤F构建文献概念知识体系。
2.如权利要求1所述的基于气象领域的知识图谱构建方法,其特征在于,所述步骤A具体包括:将提取的气象主题词在HowNet概念关系词典中挖掘上位词、下位词、同义词、并列词与相关词,并存入mysql数据库中形成气象主题词典。
3.如权利要求1所述的基于气象领域的知识图谱构建方法,其特征在于,所述步骤B具体包括:选取文献并过滤,过滤掉文献摘要中不包含气象主题词的文献,训练文本分类模型筛选出气象相关的文献,取部分文献摘要进行数据标注,然后采用Bert-BiLSTM-Dense算法建模训练得到二分类模型对摘要进行文本分类,通过此模型筛选出与气象领域相关的文献。
4.如权利要求1所述的基于气象领域的知识图谱构建方法,其特征在于,所述步骤C具体包括使用气象主题词典标注实体识别模型所需训练语料,使用Bert-BiLSTM-CRF算法构建实体识别模型,对识别结果进行知识融合后存入neo4j图数据库并更新主题词典,重新标注训练数据,迭代训练实体识别模型。
5.如权利要求1所述的基于气象领域的知识图谱构建方法,其特征在于,所述步骤D具体包括随机选取语料库中部分语料,以句子为单位,利用主题词典中词汇关系标注训练数据,使用Bert-BiLSTM-Dense算法训练关系抽取模型,对识别结果进行知识融合后存入neo4j图数据库。
6.如权利要求1所述的基于气象领域的知识图谱构建方法,其特征在于,所述步骤F具体包括:
1)基于图分类号分类规则,对文献打上行业标签,构建(E1,R,E2)三元组,其中,E1代表标题,R代表行业关系,E2代表行业;
2)将文献识别出的气象实体建立(E1,R,E2)三元组,E1代表标题,R代表包含关系,E2代表实体;
3)对文献识别出的实体关系建立(E1,R,E2)三元组,E1代表实体,R代表实体关系,E2代表实体;
4)分别从数据库提取文献作者,机构,时间等数据,建立(E1,R,E2)三元组,E1代表标题,R代表作者/机构/时间关系,E2代表作者实体/机构实体/时间实体等组成文献基本信息;
5)将1)、2)、3)和4)构建的三元组分别按照实体、关系写入csv文件;并将三元组构成的知识体系存入neo4j图数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110525353.3A CN113392223A (zh) | 2021-05-12 | 2021-05-12 | 一种基于气象领域的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110525353.3A CN113392223A (zh) | 2021-05-12 | 2021-05-12 | 一种基于气象领域的知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113392223A true CN113392223A (zh) | 2021-09-14 |
Family
ID=77617161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110525353.3A Pending CN113392223A (zh) | 2021-05-12 | 2021-05-12 | 一种基于气象领域的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392223A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186561A (zh) * | 2021-10-20 | 2022-03-15 | 福建亿榕信息技术有限公司 | 一种基于知识图谱的电子文件关联分析方法及系统 |
CN115269751A (zh) * | 2022-05-10 | 2022-11-01 | 泰瑞数创科技(北京)股份有限公司 | 地理实体时空知识图谱本体库构建方法 |
CN115329612A (zh) * | 2022-10-17 | 2022-11-11 | 中国电子科技集团公司信息科学研究院 | 信号处理异构集成微系统知识图谱构建方法及仿真方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN111209412A (zh) * | 2020-02-10 | 2020-05-29 | 同方知网(北京)技术有限公司 | 一种循环更新迭代的期刊文献知识图谱构建方法 |
CN111813959A (zh) * | 2020-07-29 | 2020-10-23 | 安徽省气象信息中心 | 气象记录档案知识图谱构建方法 |
CN111897968A (zh) * | 2020-07-20 | 2020-11-06 | 国网浙江省电力有限公司嘉兴供电公司 | 一种工业信息安全知识图谱构建方法和系统 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
-
2021
- 2021-05-12 CN CN202110525353.3A patent/CN113392223A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN111209412A (zh) * | 2020-02-10 | 2020-05-29 | 同方知网(北京)技术有限公司 | 一种循环更新迭代的期刊文献知识图谱构建方法 |
CN111897968A (zh) * | 2020-07-20 | 2020-11-06 | 国网浙江省电力有限公司嘉兴供电公司 | 一种工业信息安全知识图谱构建方法和系统 |
CN111813959A (zh) * | 2020-07-29 | 2020-10-23 | 安徽省气象信息中心 | 气象记录档案知识图谱构建方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186561A (zh) * | 2021-10-20 | 2022-03-15 | 福建亿榕信息技术有限公司 | 一种基于知识图谱的电子文件关联分析方法及系统 |
CN115269751A (zh) * | 2022-05-10 | 2022-11-01 | 泰瑞数创科技(北京)股份有限公司 | 地理实体时空知识图谱本体库构建方法 |
CN115329612A (zh) * | 2022-10-17 | 2022-11-11 | 中国电子科技集团公司信息科学研究院 | 信号处理异构集成微系统知识图谱构建方法及仿真方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392223A (zh) | 一种基于气象领域的知识图谱构建方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN112732934B (zh) | 电网设备分词词典和故障案例库构建方法 | |
CN102662923A (zh) | 一种基于机器学习的本体实例学习方法 | |
CN104809176A (zh) | 藏语实体关系抽取方法 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN105653706A (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN102708096A (zh) | 一种基于语义的网络智能舆情监测系统及其工作方法 | |
Goel et al. | Exploiting structure within data for accurate labeling using conditional random fields | |
CN103440287A (zh) | 一种基于产品信息结构化的Web问答检索系统 | |
CN112749265B (zh) | 一种基于多信息源的智能问答系统 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110781393A (zh) | 基于图模型和膨胀卷积神经网络的交通事件要素抽取算法 | |
CN115470871B (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114495143A (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
CN116383352A (zh) | 一种基于知识图谱的零样本构建领域智能问答系统的方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN114138979B (zh) | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 | |
CN114461761A (zh) | 基于标签匹配的搜索方法、系统、计算机设备及存储介质 | |
Gourru et al. | Document network projection in pretrained word embedding space | |
CN111221976A (zh) | 基于bert算法模型的知识图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |