CN111488467A - 地理知识图谱的构建方法、装置、存储介质及计算机设备 - Google Patents
地理知识图谱的构建方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN111488467A CN111488467A CN202010362716.1A CN202010362716A CN111488467A CN 111488467 A CN111488467 A CN 111488467A CN 202010362716 A CN202010362716 A CN 202010362716A CN 111488467 A CN111488467 A CN 111488467A
- Authority
- CN
- China
- Prior art keywords
- seed set
- geographical
- knowledge graph
- knowledge
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种地理知识图谱的构建方法、装置、存储介质及计算机设备,涉及知识图谱技术领域,主要目的在于能够通过算法生成种子集,并结合领域专家制定的本体框架对种子集进行重构,利用从文献中抽取的知识实体对种子集进行扩充,进而构建地理知识图谱。从而一方面可以提高地理知识图谱构建的准确性,另一方面也可以提高地理知识图谱构建的效率。所述方法包括:通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;根据预设的本体框架对种子集的本体层进行重构处理;利用在获取的文献信息中提取的知识实体对种子集进行扩充;根据扩充后的种子集构建地理知识图谱。本发明适用于地理知识图谱的构建。
Description
技术领域
本发明涉及知识图谱技术领域,特别是涉及一种地理知识图谱的构建方法、装置、存储介质及计算机设备。
背景技术
当前我国基础地理信息数据库体系发展迅速,基础地理数据服务与信息服务尺度多元、内容丰富、更新及时,在国家信息化建设和社会化应用中发挥了重要的作用。地理知识图谱作为地理信息数据的实例化体现,能够清晰的向用户展现数据在哪些领域、哪些地区应用等推荐型知识,以支撑其规划、管理与决策。
目前,通常通过机器学习自动化构建地理知识图谱,或者通过人工的方式实现地理知识图谱的构建。然而,通过机器学习自动化构建地理知识图谱难以保证图谱准确性,而通过人工构建地理知识图谱则需要花费巨大的人力和时间成本,导致构建地理知识图谱的效率低且准确性差。
发明内容
有鉴于此,本发明提供一种地理知识图谱的构建方法、装置、存储介质及计算机设备,主要目的在于能够通过算法生成种子集,并结合领域专家制定的本体框架对种子集进行重构,利用从文献中抽取的知识实体对所述种子集进行扩充,进而构建地理知识图谱。从而一方面可以提高地理知识图谱构建的准确性,另一方面也可以提高地理知识图谱构建的效率。
依据本发明一个方面,提供了一种地理知识图谱的构建的方法,包括:
通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;
根据预设的本体框架对所述种子集的本体层进行重构处理;
利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;
根据扩充后的种子集构建地理知识图谱。
进一步地,所述通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集,包括:
利用Bootstrapping算法在所述叙词表中提取实体类型以及关系类型,并根据所述实体类型以及关系类型生成地理知识图谱种子集。
进一步地,所述利用在获取的文献信息中提取的知识实体对所述种子集进行扩充,包括:
根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络;
通过社会网络分析算法识别所述领域语义概念网络中的词族,并根据所述词族获取所述知识实体;
将所述知识实体添加到所述种子集中。
进一步地,所述根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络,包括:
在所述预先建立的文献数据库和关键词词典中获取语料信息;
利用jieba工具对所述语料信息进行分词处理;
利用所述word2vec词向量模型对所述分词处理后的语料信息进行处理,得到所述语料信息的词向量空间,将所述词向量空间确定为所述语料信息的领域语义概念网络。
进一步地,所述方法还包括:
利用网络爬虫技术爬取网络文献信息;
通过自然语言处理技术对所述网络文献信息进行命名实体识别;
利用所述命名实体识别结果对所述种子集进行扩充。
进一步地,所述利用自然语言处理技术在所述网络文献信息中提取地理实体之后,所述方法还包括:
对所述命名实体识别结果进行数据清洗,并将得到的地理实体添加到所述种子集中。
进一步地,所述通过预先训练的模型对获取的叙词表进行处理,生成地理知识图谱种子集之前,所述方法还包括:
根据Bootstrapping算法结合监督学习法训练联合模型,所述联合模型用于根据叙词表生成地理知识图谱种子集。
依据本发明二个方面,提供了一种地理知识图谱的构建的装置,包括:
生成单元,用于通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;
重构单元,用于根据预设的本体框架对所述种子集的本体层进行重构处理;
扩充单元,用于利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;
构建单元,用于根据扩充后的种子集构建地理知识图谱。
进一步地,所述生成单元具体用于利用Bootstrapping算法在所述叙词表中提取实体类型以及关系类型,并根据所述实体类型以及关系类型生成地理知识图谱种子集。
进一步地,所述扩充单元包括:
建立模块,用于根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络;
获取模块,用于通过社会网络分析算法识别所述领域语义概念网络中的词族,并根据所述词族获取所述知识实体;
添加模块,用于将所述知识实体添加到所述种子集中。
进一步地,所述建立模块具体用于在所述预先建立的文献数据库和关键词词典中获取语料信息;利用jieba工具对所述语料信息进行分词处理;利用所述word2vec词向量模型对所述分词处理后的语料信息进行处理,得到所述语料信息的词向量空间,将所述词向量空间确定为所述语料信息的领域语义概念网络。
进一步地,所述装置还包括:爬虫单元和识别单元,
所述爬虫单元,用于利用网络爬虫技术爬取网络文献信息;
所述识别单元,用于通过自然语言处理技术对所述网络文献信息进行命名实体识别;
所述扩充单元具体还用于利用所述命名实体识别结果对所述种子集进行扩充。
进一步地,所述装置还包括:
清洗单元,用于对所述命名实体识别结果进行数据清洗,并将得到的地理实体添加到所述种子集中。
进一步地,所述方法还包括:
训练单元,用于根据Bootstrapping算法结合监督学习法训练联合模型,所述联合模型用于根据叙词表生成地理知识图谱种子集。
依据本发明第三方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;根据预设的本体框架对所述种子集的本体层进行重构处理;利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;根据扩充后的种子集构建地理知识图谱。
依据本发明第四方面,提供了一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下步骤:通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;根据预设的本体框架对所述种子集的本体层进行重构处理;利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;根据扩充后的种子集构建地理知识图谱。
本发明提供一种地理知识图谱的构建方法、装置、存储介质及计算机设备,与现有技术通过机器学习自动化构建地理知识图谱,或者通过人工的方式实现地理知识图谱的构建相比,本发明通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;根据预设的本体框架对所述种子集的本体层进行重构处理;利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;根据扩充后的种子集构建地理知识图谱。从而一方面可以提高地理知识图谱构建的准确性,另一方面也可以提高地理知识图谱构建的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种地理知识图谱的构建方法流程图;
图2示出了本发明实施例提供的一种地理知识图谱的构建技术路线示意图;
图3示出了本发明实施例提供的一种地理知识图谱的扩充技术路线示意图;
图4示出了本发明实施例提供的一种地理知识图谱的构建装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,通常通过机器学习自动化构建地理知识图谱,或者通过人工的方式实现地理知识图谱的构建。然而,通过机器学习自动化构建地理知识图谱难以保证图谱准确性,而通过人工构建地理知识图谱则需要花费巨大的人力和时间成本,导致构建地理知识图谱的效率低且准确性差。
为了解决上述问题,本发明实施例提供了一种地理知识图谱的构建方法,如图1所示,所述方法包括:
101、通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集。
其中,所述预先训练的联合模型具体可以为通过Bootstrapping技术与监督学习技术建立的联合模型。所述叙词表具体可以为《测绘学叙词表》。所述地理知识图谱种子集可以为通过Bootstrapping技术从自动标注的叙词表语料中随机选取的部分语料,所述地理知识图谱种子集可以用于生成地理知识图谱。
具体地,通过分析《测绘学叙词表》语义关系,使用Bootstrapping技术结合监督学习法进行联合建模,从叙词表内部结构中提取实体类型及关系类型,自动生成地理知识图谱高质量种子集。
需要说明的是,由于叙词表中蕴含着丰富的地理信息专业的语义信息,因此本申请使用地理领域的叙词表可以为生成地理知识图谱种子集提供丰富的语义信息。另外,由于叙词表的范围巨大,生成的地理知识图谱种子集会出现语义漂移,而发明实施例,通过结合监督学习技术,可以极大的提高生成的地理知识图谱种子集的质量,为后续利用所述种子集生成地理知识图谱奠定基础。
102、根据预设的本体框架对所述种子集的本体层进行重构处理。
其中,所述本体可以用于描述一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础。所述预设的本体框架可以为面向知识抽取应用,定义其概念体系、知识关系、属性信息,并结合领域专家指导意见,设计的应用本体框架,并基于该框架对知识图谱种子集进行本体层重构,以使其能指导知识抽取工作。
具体地,可以根据预设的本体框架对所述种子集的本体层进行重构处理。在进行重构处理之前,所述方法还可以包括,利用半自动构建技术建立本体框架。
需要说明的是,由于种子集是通过叙词表自动生成的,因此所述种子集的本体层中存在很多与后续知识抽取过程无关的本体,本发明实施例根据预设的本体框架对所述种子集的本体层进行重构处理,通过本体框架的重构,可以将原本种子集中的无关本体去除,以便于后续知识提取过程中可以针对有关的本体进行知识抽取,从而提高地理知识图谱构建的效率。
103、利用在获取的文献信息中提取的知识实体对所述种子集进行扩充。
其中,所述文献信息可以为文献的文本信息,具体可以通过网络进行获取,如可以通过中国知网等文献库获取,另外,也可以通过网络爬虫工具直接在文献网页中爬取。具体地,在获取文献信息后,可以利用HMM、CRF模型等对所述文献信息进行命名实体识别,并利用所述命名实体识别后得到的知识实体对所述种子集进行扩充。
需要说明的是,本发明利用在获取的文献信息中提取的知识实体对所述种子集进行扩充,可以实现在地理知识图谱中添加推荐型知识,以支撑用户的规划、管理与决策研究,为用户提供更详细、全方位的知识信息推荐。
104、根据扩充后的种子集构建地理知识图谱。
其中,将所述知识实体添加至所述种子集后,可以利用所述种子集构建地理知识图谱。具体地,可以通过gephi、Cytoscape等可视化工具,以及得到的地理知识图谱种子集构建地理知识图谱。
进一步的,为了更好的说明上述地理知识图谱的构建方法的过程,作为对上述实施例的细化和扩展,本发明实施例提供了几种可选实施例,但不限于此,具体如下所示:
在本发明的一个可选实施例,所述步骤101具体可以包括:利用Bootstrapping算法在所述叙词表中提取实体类型以及关系类型,并根据所述实体类型以及关系类型生成地理知识图谱种子集。
其中,所述Bootstrapping算法是目前开放域信息抽取中比较常见的一种方法,通过模板生成和实例抽取两个阶段不断迭代,进而不断扩充关系实例。如图2所示,利用Bootstrapping算法对获取的叙词表进行处理,抽取实体层和本体层,其中所述实体层可以包括实体类型,所述本体层可以包括关系类型,所述实体层和本体层构成所述地理知识图谱种子集。
需要说明的是,对于本发明实施例,通过Bootstrapping算法抽取叙词表中的本体层和实体层,能够大幅提高生成初始种子集的质量,进而提高地理知识图谱构建的效率和准确性。
在本发明的另一个可选实施例,所述步骤103具体可以包括:根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络。
其中,所述word2vec词向量模型是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学的词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络的隐藏层;所述预先建立的文献数据库具体可以为预先根据现有的文献资料以及数据库技术,创建的文献数据库;所述关键词词典可以为通过自然语言处理技术中的关键词提取算法,在大量文献中提取的关键词构成的数据集,所述关键词词典可以包括地理知识图谱中所有核心概念和文献摘要关键词;所述领域语义概念网络具体可以为一种揭示知识单元间内在联系的知识组织体系,具体可以由词语与词语之间的语义相似度构成,其中的节点可以是各种词语或者概念,概念之间的关联由带权重的边表示,代表了概念之间的语义相似度,所述领域语义概念网络有利于提高信息检索系统与用户的交互性,实现概念检索、智能导航与知识推理。
具体地,将通过各种渠道获取的文献信息作为初始文本,利用word2vec词向量模型将所述文本转化为词向量,并根据预先建立的文献数据库和关键词词典,建立所述领域语义概念网络。
对于本发明实施例,如图3所示,所述根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络,具体可以包括:在所述预先建立的文献数据库和关键词词典中获取语料信息;利用jieba工具对所述语料信息进行分词处理;利用所述word2vec词向量模型对所述分词处理后的语料信息进行处理,得到所述语料信息的词向量空间,将所述词向量空间确定为所述语料信息的领域语义概念网络。
其中,所述jieba工具是一款优秀的Python第三方中文分词库,可以支持三种分词模式:精确模式、全模式和搜索引擎模式。利用所述jieba工具可以对获取的语料信息进行分词处理,例如,获取的语料信息为{地图学是研究地图的理论},则通过jiaba工具进行分词处理后,可以得到{地图学,是,研究,地图,的,理论};所述利用word2vec词向量模型对所述分词处理后的语料信息进行处理,得到词向量空间的过程具体可以包括:利用word2vec词向量模型将分词处理后的词语转化为词向量,计算词语之间的余弦相似度,利用所述词向量与词向量间的相似度构建领域语义概念网络,所述网络中的节点可以为所述概念词语,词语间的连线代表二者在语义上存在相似性,连线的权值可以表示二者的语义相似度。
具体地,可以通过jieba工具对获取的文献文本进行分词处理,得到分词后的文本语料,利用word2vec词向量模型对所述文本语料进行处理,得到由词向量以及词向量间的余弦相似度组成的词向量空间,即所述领域语义概念网络。
对于本发明实施例,所述步骤103具体还可以包括:通过社会网络分析算法识别所述领域语义概念网络中的词族,并根据所述词族获取所述知识实体。
其中,所述社会网络分析算法具体可以包括聚类算法,具体可以为社会网络分析算法,或者层次聚类算法等;所述词族可以为语义相似的词汇集合,是语义工具的基础性构成单元,可以直接用于检索扩展,也可以进一步识别其中的词间关系,用于语义控制工具的构建、丰富和更新。词族中的同义词和等级关系词汇在信息检索领域通常被宽泛的统称为同义词或准同义词。
具体地,可以通过社会网络分析算法识别领域语义概念网络中的词族,利用所述词族获取知识图谱核心概念近义词、实例近义词,并将上述近义词确定为待扩充的知识实体。
对于本发明实施例,所述步骤103具体还可以包括:将所述知识实体添加到所述种子集中。
其中,所述知识实体具体可以包括通过社会网络分析算法识别的领域语义概念网络中的词族。例如,对于“地图学(cartography)”这一实体,通过识别的词族可以得到近义词“制图学(cartography)”这一近义词实体,则可以将所述“制图学(cartography)”实体确定为待扩充的知识实体,并将其添加至所述种子集中。
需要说明的是,本发明实施例通过在海量文献中获取知识实体,并利用所述知识实体对抽取的种子集实体层进行扩充,从而可以实现地理知识图谱的构建。
在本发明的又一个可选实施例,所述方法还包括:利用网络爬虫技术爬取网络文献信息;通过自然语言处理技术对所述网络文献信息进行命名实体识别;利用所述命名实体识别结果对所述种子集进行扩充。
其中,所述网络爬虫可以通过Python语言编写;所述命名实体识别(Named EntityRecognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别,具体可以通过基于深度学习的命名实体识别方法,如可以通过LSTM+CRF、BiLSTM+CRF的方法进行实体识别,得到识别的地理实体。对于本发明实施例,可以在中国行政区划网网页中获取初始的语料信息,通过条件随机场模型对所述语料信息进行地理实体识别,得到如“北京市”、“上海市”等地理实体。具体地,可以利用网络爬虫技术爬取网络文献信息,基于深度学习方法对所述文献信息进行地理实体识别,将所述地理实体添加到所述地理知识图谱种子集中。
需要说明的是,本发明实施例识别地理实体,并利用所述地理实体扩充所述地理知识图谱种子集,从而可以进一步扩充地理知识图谱的规模,展现更加丰富的地理知识图谱内容。
在本发明的再一个可选实施例,所述方法还包括:对所述命名实体识别结果进行数据清洗,并将得到的地理实体添加到所述种子集中。
具体地,可以通过预先训练的数据清洗模型对识别的地理实体进行数据清洗,也可以通过人工的方式进行数据清洗。将所述命名实体识别结果中存在的数据缺省,极端数据等进行剔除,从而保证地理知识图谱种子集中的实体准确性。
在本发明的再一个可选实施例,所述方法还包括:根据Bootstrapping算法结合监督学习法训练联合模型,所述联合模型用于根据叙词表生成地理知识图谱种子集。
其中,所述监督学习法是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象和一个期望的输出值组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。所述Bootstrapping算法又叫自扩展技术,它是一种被广泛用于知识获取的机器学习技术。它是一种循序渐进的学习方法,只需要很小数量的种子,以此为基础,通过一次次的训练,把种子进行有效的扩充最终达到需要的数据信息规模。所述Bootstrapping算法的具体过程可以包括:S1:建立初始种子集;S2:根据种子集,在抽取一定窗口大小的上下文模式,建立候选模式集;S3:利用模式匹配识别样例,构成候选实体名集合。将步骤S2所得的模式分别与原模式进行匹配,识别出样例,构成候选集合;S4:利用一定的标准评价和选择模式和样例,分别计算和样例的信息熵增益,然后进行排序,选择满足一定要求的模式加入最终可用模式集,选择满足一定条件的样例加入种子集;S5:重复步骤S2-S4,直到满足一定的迭代次数或者不再有新的样例被识别。具体地,根据所述Bootstrapping算法以及监督学习法,训练联合模型,所述联合模型具体可以用于根据叙词表生成地理知识图谱种子集。
需要说明的是,相比于仅通过Bootstrapping算法生成种子集而言,本发明实施例结合了监督学习法,可以有效解决前者生成的种子集范围过大,生成的种子集存在语义漂移现象的问题,从而提高了地理知识图谱构建效率和准确性。
进一步地,作为图1的具体实现,本发明实施例提供了一种地理知识图谱的构建装置,如图4所示,所述装置包括:生成单元21、重构单元22、扩充单元23和构建单元24。
生成单元21,可以用于通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;
重构单元22,可以用于根据预设的本体框架对所述种子集的本体层进行重构处理;
扩充单元23,可以用于利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;
构建单元24,可以用于根据扩充后的种子集构建地理知识图谱。
进一步地,所述生成单元21具体用于利用Bootstrapping算法在所述叙词表中提取实体类型以及关系类型,并根据所述实体类型以及关系类型生成地理知识图谱种子集。
进一步地,所述扩充单元23包括:
建立模块231,可以用于根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络;
获取模块232,可以用于通过社会网络分析算法识别所述领域语义概念网络中的词族,并根据所述词族获取所述知识实体;
添加模块233,可以用于将所述知识实体添加到所述种子集中。
进一步地,所述建立模块231具体用于在所述预先建立的文献数据库和关键词词典中获取语料信息;利用jieba工具对所述语料信息进行分词处理;利用所述word2vec词向量模型对所述分词处理后的语料信息进行处理,得到所述语料信息的词向量空间,将所述词向量空间确定为所述语料信息的领域语义概念网络。
进一步地,所述装置还包括:爬虫单元25和识别单元26,
所述爬虫单元25,可以用于利用网络爬虫技术爬取网络文献信息;
所述识别单元26,可以用于通过自然语言处理技术对所述网络文献信息进行命名实体识别;
所述扩充单元23具体还用于利用所述命名实体识别结果对所述种子集进行扩充。
进一步地,所述装置还包括:
清洗单元27,可以用于对所述命名实体识别结果进行数据清洗,并将得到的地理实体添加到所述种子集中。
进一步地,所述方法还包括:
训练单元28,可以用于根据Bootstrapping算法结合监督学习法训练联合模型,所述联合模型用于根据叙词表生成地理知识图谱种子集。
需要说明的是,本发明实施例提供的一种地理知识图谱的构建装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:通过预先训练的联合模型对获取的叙词表进行处理,生成知识图谱种子集;根据预设的本体框架对所述种子集的本体层进行重构处理;利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;根据扩充后的种子集构建知识图谱。
基于上述如图1所示方法和如图4所示装置的实施例,本发明实施例还提供了一种计算机设备,如图5所示,处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33、以及通信总线34。其中:处理器31、通信接口32、以及存储器33通过通信总线34完成相互间的通信。通信接口34,用于与其它设备比如用户端或其它服务器等的网元通信。处理器31,用于执行程序,具体可以执行上述地理知识图谱的构建方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。处理器31可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器33,用于存放程序。存储器33可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。程序具体可以用于使得处理器31执行以下操作:通过预先训练的联合模型对获取的叙词表进行处理,生成知识图谱种子集;根据预设的本体框架对所述种子集的本体层进行重构处理;利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;根据扩充后的种子集构建知识图谱。
通过本发明的技术方案,能够通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;根据预设的本体框架对所述种子集的本体层进行重构处理;利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;根据扩充后的种子集构建地理知识图谱。从而一方面可以提高地理知识图谱构建的准确性,另一方面也可以提高地理知识图谱构建的效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种地理知识图谱的构建方法,其特征在于,包括:
通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;
根据预设的本体框架对所述种子集的本体层进行重构处理;
利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;
根据扩充后的种子集构建地理知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集,包括:
利用Bootstrapping算法在所述叙词表中提取实体类型以及关系类型,并根据所述实体类型以及关系类型生成地理知识图谱种子集。
3.根据权利要求2所述的方法,其特征在于,所述利用在获取的文献信息中提取的知识实体对所述种子集进行扩充,包括:
根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络;
通过社会网络分析算法识别所述领域语义概念网络中的词族,并根据所述词族获取所述知识实体;
将所述知识实体添加到所述种子集中。
4.根据权利要求3所述的方法,其特征在于,所述根据word2vec词向量模型、预先建立的文献数据库和关键词词典,建立领域语义概念网络,包括:
在所述预先建立的文献数据库和关键词词典中获取语料信息;
利用jieba工具对所述语料信息进行分词处理;
利用所述word2vec词向量模型对所述分词处理后的语料信息进行处理,得到所述语料信息的词向量空间,将所述词向量空间确定为所述语料信息的领域语义概念网络。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
利用网络爬虫技术爬取网络文献信息;
通过自然语言处理技术对所述网络文献信息进行命名实体识别;
利用所述命名实体识别结果对所述种子集进行扩充。
6.根据权利要求5所述的方法,其特征在于,所述利用自然语言处理技术在所述网络文献信息中提取地理实体之后,所述方法还包括:
对所述命名实体识别结果进行数据清洗,并将得到的地理实体添加到所述种子集中。
7.根据权利要求6所述的方法,其特征在于,所述通过预先训练的模型对获取的叙词表进行处理,生成地理知识图谱种子集之前,所述方法还包括:
根据Bootstrapping算法结合监督学习法训练联合模型,所述联合模型用于根据叙词表生成地理知识图谱种子集。
8.一种地理知识图谱的构建装置,其特征在于,包括:
生成单元,用于通过预先训练的联合模型对获取的叙词表进行处理,生成地理知识图谱种子集;
重构单元,用于根据预设的本体框架对所述种子集的本体层进行重构处理;
扩充单元,用于利用在获取的文献信息中提取的知识实体对所述种子集进行扩充;
构建单元,用于根据扩充后的种子集构建地理知识图谱。
9.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-7中任一项所述的地理知识图谱的构建方法对应的操作。
10.一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的地理知识图谱的构建对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010362716.1A CN111488467B (zh) | 2020-04-30 | 2020-04-30 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010362716.1A CN111488467B (zh) | 2020-04-30 | 2020-04-30 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488467A true CN111488467A (zh) | 2020-08-04 |
CN111488467B CN111488467B (zh) | 2022-04-05 |
Family
ID=71813192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010362716.1A Active CN111488467B (zh) | 2020-04-30 | 2020-04-30 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488467B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115230A (zh) * | 2020-08-21 | 2020-12-22 | 浙江工商大学 | 一种基于层次类别信息的知识图谱构建方法 |
CN112163101A (zh) * | 2020-10-30 | 2021-01-01 | 武汉大学 | 一种面向空间知识图谱的地理实体匹配与融合方法 |
CN112256888A (zh) * | 2020-10-30 | 2021-01-22 | 南京师范大学 | 地理知识获取方法 |
CN112487212A (zh) * | 2020-12-18 | 2021-03-12 | 清华大学 | 领域知识图谱的构建方法及装置 |
CN112699238A (zh) * | 2020-12-29 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种基于标签的知识本体构建方法、终端设备及存储介质 |
CN112732939A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
CN113158671A (zh) * | 2021-03-25 | 2021-07-23 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
CN115048478A (zh) * | 2022-08-12 | 2022-09-13 | 深圳市其域创新科技有限公司 | 智能设备地理信息图谱的构建方法、设备和系统 |
CN115905575A (zh) * | 2023-01-09 | 2023-04-04 | 海乂知信息科技(南京)有限公司 | 语义知识图谱的构建方法、电子设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102844755A (zh) * | 2010-04-27 | 2012-12-26 | 惠普发展公司,有限责任合伙企业 | 提取命名实体的方法 |
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
CN106951526A (zh) * | 2017-03-21 | 2017-07-14 | 北京邮电大学 | 一种实体集扩展方法及装置 |
CN107391906A (zh) * | 2017-06-19 | 2017-11-24 | 华南理工大学 | 基于神经网络和图谱结构的健康饮食知识网络构建方法 |
CN107943786A (zh) * | 2017-11-16 | 2018-04-20 | 广州市万隆证券咨询顾问有限公司 | 一种中文命名实体识别方法及系统 |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN109033160A (zh) * | 2018-06-15 | 2018-12-18 | 东南大学 | 一种知识图谱动态更新方法 |
US20190155961A1 (en) * | 2017-11-17 | 2019-05-23 | Microsoft Technology Licensing, Llc | Resource-Efficient Generation of a Knowledge Graph |
CN110444259A (zh) * | 2019-06-06 | 2019-11-12 | 昆明理工大学 | 基于实体关系标注策略的中医电子病历实体关系提取方法 |
US20200057946A1 (en) * | 2018-08-16 | 2020-02-20 | Oracle International Corporation | Techniques for building a knowledge graph in limited knowledge domains |
CN110909116A (zh) * | 2019-11-28 | 2020-03-24 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种面向社交媒体的实体集合扩展方法及系统 |
-
2020
- 2020-04-30 CN CN202010362716.1A patent/CN111488467B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102844755A (zh) * | 2010-04-27 | 2012-12-26 | 惠普发展公司,有限责任合伙企业 | 提取命名实体的方法 |
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
CN106951526A (zh) * | 2017-03-21 | 2017-07-14 | 北京邮电大学 | 一种实体集扩展方法及装置 |
CN107391906A (zh) * | 2017-06-19 | 2017-11-24 | 华南理工大学 | 基于神经网络和图谱结构的健康饮食知识网络构建方法 |
CN107943786A (zh) * | 2017-11-16 | 2018-04-20 | 广州市万隆证券咨询顾问有限公司 | 一种中文命名实体识别方法及系统 |
US20190155961A1 (en) * | 2017-11-17 | 2019-05-23 | Microsoft Technology Licensing, Llc | Resource-Efficient Generation of a Knowledge Graph |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN109033160A (zh) * | 2018-06-15 | 2018-12-18 | 东南大学 | 一种知识图谱动态更新方法 |
US20200057946A1 (en) * | 2018-08-16 | 2020-02-20 | Oracle International Corporation | Techniques for building a knowledge graph in limited knowledge domains |
CN110444259A (zh) * | 2019-06-06 | 2019-11-12 | 昆明理工大学 | 基于实体关系标注策略的中医电子病历实体关系提取方法 |
CN110909116A (zh) * | 2019-11-28 | 2020-03-24 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种面向社交媒体的实体集合扩展方法及系统 |
Non-Patent Citations (3)
Title |
---|
MIREILLE FARES等: "Unsupervised word-level affect analysis and propagation in a lexical knowledge graph", 《ELSEVIER》 * |
杜慧平: "基于概念语义网络的词族挖掘研究", 《图书情报工作》 * |
韩其琛等: "基于叙词表的领域知识图谱初始种子集自动生成算法", 《中文信息学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115230A (zh) * | 2020-08-21 | 2020-12-22 | 浙江工商大学 | 一种基于层次类别信息的知识图谱构建方法 |
CN112163101A (zh) * | 2020-10-30 | 2021-01-01 | 武汉大学 | 一种面向空间知识图谱的地理实体匹配与融合方法 |
CN112256888A (zh) * | 2020-10-30 | 2021-01-22 | 南京师范大学 | 地理知识获取方法 |
JP7468929B2 (ja) | 2020-10-30 | 2024-04-16 | 南京師範大学 | 地理知識取得方法 |
CN112163101B (zh) * | 2020-10-30 | 2024-01-26 | 武汉大学 | 一种面向空间知识图谱的地理实体匹配与融合方法 |
WO2022088526A1 (zh) * | 2020-10-30 | 2022-05-05 | 南京师范大学 | 地理知识获取方法 |
JP2023502827A (ja) * | 2020-10-30 | 2023-01-26 | 南京師範大学 | 地理知識取得方法 |
CN112487212A (zh) * | 2020-12-18 | 2021-03-12 | 清华大学 | 领域知识图谱的构建方法及装置 |
CN112699238A (zh) * | 2020-12-29 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种基于标签的知识本体构建方法、终端设备及存储介质 |
CN112732939B (zh) * | 2021-01-15 | 2022-11-29 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
CN112732939A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
CN113158671B (zh) * | 2021-03-25 | 2023-08-11 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
CN113158671A (zh) * | 2021-03-25 | 2021-07-23 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
CN115048478A (zh) * | 2022-08-12 | 2022-09-13 | 深圳市其域创新科技有限公司 | 智能设备地理信息图谱的构建方法、设备和系统 |
CN115905575A (zh) * | 2023-01-09 | 2023-04-04 | 海乂知信息科技(南京)有限公司 | 语义知识图谱的构建方法、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111488467B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488467B (zh) | 地理知识图谱的构建方法、装置、存储介质及计算机设备 | |
CN109255031B (zh) | 基于知识图谱的数据处理方法 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
CN111581990B (zh) | 跨境交易撮合匹配方法及装置 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
CN109408811B (zh) | 一种数据处理方法及服务器 | |
CN109271505A (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN110188147B (zh) | 基于知识图谱的文献实体关系发现方法及系统 | |
Zheng et al. | Template-independent news extraction based on visual consistency | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN110245238B (zh) | 基于规则推理和句法模式的图嵌入方法及系统 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
Zhu et al. | A collaborative AI-enabled pretrained language model for AIoT domain question answering | |
CN106599215A (zh) | 一种基于深度学习的问句生成方法和问句生成系统 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN112463914B (zh) | 一种用于互联网服务的实体链接方法、装置及存储介质 | |
CN103530419B (zh) | 一种面向Web 服务描述的本体学习方法 | |
CN113392245B (zh) | 一种用于众测任务发布的文本摘要与图文检索生成方法 | |
Algosaibi et al. | Using the semantics inherent in sitemaps to learn ontologies | |
CN110414006B (zh) | 文本的主题标注方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |