CN106934032A - 一种城市知识图谱构建方法及装置 - Google Patents

一种城市知识图谱构建方法及装置 Download PDF

Info

Publication number
CN106934032A
CN106934032A CN201710150462.5A CN201710150462A CN106934032A CN 106934032 A CN106934032 A CN 106934032A CN 201710150462 A CN201710150462 A CN 201710150462A CN 106934032 A CN106934032 A CN 106934032A
Authority
CN
China
Prior art keywords
entity
city
relationship
training
subelement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710150462.5A
Other languages
English (en)
Other versions
CN106934032B (zh
Inventor
张明辉
刘勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing softong Intelligent Technology Co.,Ltd.
Original Assignee
Isoftstone Power Information Technology (group) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Isoftstone Power Information Technology (group) Co Ltd filed Critical Isoftstone Power Information Technology (group) Co Ltd
Priority to CN201710150462.5A priority Critical patent/CN106934032B/zh
Publication of CN106934032A publication Critical patent/CN106934032A/zh
Application granted granted Critical
Publication of CN106934032B publication Critical patent/CN106934032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种城市知识图谱构建方法及装置,该方法包括:对城市数据语料进行分词,得到至少一个词组;构建各个词组对应的特征向量;根据各个词组对应的特征向量以及预先生成的城市实体识别模型,对各个词组进行实体识别,并对识别出的各个实体添加属性标签;依据各个词组对应的特征向量以及预先生成的城市实体关系识别模型,对各个实体进行实体关系识别,得到各个实体之间的实体关系信息;根据各个实体、其属性标签以及各个实体之间的关系信息构建城市知识图谱。这就解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。

Description

一种城市知识图谱构建方法及装置
技术领域
本发明涉及大数据技术领域,更具体地说,涉及一种城市知识图谱构建方法及装置。
背景技术
知识图谱是一种图结构的知识库,属于知识工程的范畴。与普通知识库不同,知识图谱融合所有学科、将不同来源、类型以及结构的知识单元通过链接关联成图,将领域知识数据体系化与关系化,并以图的形式将知识可视化。
知识图谱的应用扩展了原科学知识图谱的内涵,使其应用场景得以扩展,但是,目前知识图谱的应用仍局限于搜索引擎以及问答系统等方面。在智慧城市领域中,由于城市数据的大规模性以及无序性,利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考。
发明内容
有鉴于此,本发明提供一种城市知识图谱构建方法及装置,以解决现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。技术方案如下:
一种城市知识图谱构建方法,包括:
对城市数据语料进行分词,得到至少一个词组;
针对各个所述词组,提取特征并构建对应的特征向量;
根据各个所述词组对应的所述特征向量以及预先生成的城市实体识别模型,对各个所述词组进行实体识别,并为识别出的各个实体添加属性标签;
依据各个所述实体对应的所述特征向量以及预先生成的城市实体关系识别模型,对各个所述实体进行实体关系识别,得到各个所述实体之间的实体关系信息;
根据各个所述实体、各个所述实体对应的所述属性标签以及各个所述实体之间的所述实体关系信息,构建城市知识图谱。
优选的,所述预先生成城市实体识别模型的具体过程,包括:
对城市数据实体训练语料进行分词,得到至少一个实体训练词组;
针对各个所述实体训练词组,提取特征并构建对应的实体训练特征向量;
将各个所述实体训练特征向量作为用于识别城市实体的第一初始深度置信网络的输入数据,并对所述第一初始深度置信网络进行逐层无监督预训练,所述第一初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
在预训练后的所述第一初始深度置信网络中添加一个神经网络层作为输出层,得到第一深度置信网络;
根据各个所述实体训练特征向量对应的标准实体标注,反向微调所述第一深度置信网络各层的实体识别参数;
将反向微调后的所述第一深度置信网络确定为城市实体识别模型。
优选的,所述预先生成城市实体关系识别模型的具体过程,包括:
对城市数据实体关系训练语料进行分词,得到至少一个实体关系训练词组;
针对各个所述实体关系训练词组,提取特征并构建对应的实体关系训练特征向量;
将各个所述实体关系训练特征向量作为用于识别城市实体关系的第二初始深度置信网络的输入数据,并对所述第二初始深度置信网络进行逐层无监督预训练,所述第二初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
在预训练后的所述第二初始深度置信网络中添加一个神经网络层作为输出层,得到第二深度置信网络;
根据各个所述实体关系训练特征向量之间的标准实体关系标注,反向微调所述第二深度置信网络各层的实体关系识别参数;
将反向微调后的所述第二深度置信网络确定为城市实体关系识别模型。
优选的,所述根据各个所述实体、各个所述实体对应的所述属性标签以及各个所述实体之间的所述实体关系信息,构建城市知识图谱,包括:
将各个所述实体及其对应的属性标签分别确定为节点,并且,将各个所述实体之间的所述实体关系信息分别确定为有向线段;
根据各个所述节点和各个所述有向线段构建城市知识图谱。
一种城市知识图谱构建装置,包括:分词模块、特征向量构建模块、实体识别模块、实体关系识别模块和城市知识图谱构建模块;所述实体识别模块包括城市实体识别模型生成单元,所述实体关系识别模块包括城市实体关系识别模型生成单元;
所述分词模型,用于对城市数据语料进行分词,得到至少一个词组;
所述特征向量构建模块,用于针对各个所述词组,提取特征并构建对应的特征向量;
所述实体识别模块,用于根据各个所述词组对应的所述特征向量以及预先生成的城市实体识别模型,对各个所述词组进行实体识别,并为识别出的各个实体添加属性标签;
所述实体关系识别模块,用于依据各个所述实体对应的所述特征向量以及预先生成的城市实体关系识别模型,对各个所述实体进行实体关系识别,得到各个所述实体之间的实体关系信息;
所述城市知识图谱构建模块,用于根据各个所述实体、各个所述实体对应的所述属性标签以及各个所述实体之间的所述实体关系信息,构建城市知识图谱;
所述城市实体识别模型生成单元,用于预先生成城市实体识别模型;
所述城市实体关系识别模型生成单元,用于预先生成城市实体关系识别模型。
优选的,所述城市实体识别模型生成单元包括:第一分词子单元、第一特征向量构建子单元、第一预训练子单元、第一添加子单元、第一反向微调子单元和城市实体识别模型确定子单元;
所述第一分词子单元,用于对城市数据实体训练语料进行分词,得到至少一个实体训练词组;
所述第一特征向量构建子单元,用于针对各个所述实体训练词组,提取特征并构建对应的实体训练特征向量;
所述第一预训练子单元,用于将各个所述实体训练特征向量作为用于识别城市实体的第一初始深度置信网络的输入数据,并对所述第一初始深度置信网络进行逐层无监督预训练,所述第一初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
所述第一添加子单元,用于在预训练后的所述第一初始深度置信网络中添加一个神经网络层作为输出层,得到第一深度置信网络;
所述第一反向微调子单元,用于根据各个所述实体训练特征向量对应的标准实体标注,反向微调所述第一深度置信网络各层的实体识别参数;
所述城市实体识别模型确定子单元,用于将反向微调后的所述第一深度置信网络确定为城市实体识别模型。
优选的,所述城市实体关系识别模型生成单元,包括:第二分词子单元、第二特征向量构建子单元、第二预训练子单元、第二添加子单元、第二反向微调子单元和城市实体关系识别模型确定子单元;
所述第二分词子单元,用于对城市数据实体关系训练语料进行分词,得到至少一个实体关系训练词组;
所述第二特征向量构建子单元,用于针对各个所述实体关系训练词组,提取特征并构建对应的实体关系训练特征向量;
所述第二预训练子单元,用于将各个所述实体关系训练特征向量作为用于识别城市实体关系的第二初始深度置信网络的输入数据,并对所述第二初始深度置信网络进行逐层无监督预训练,所述第二初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
所述第二添加子单元,用于在预训练后的所述第二初始深度置信网络中添加一个神经网络层作为输出层,得到第二深度置信网络;
所述第二反向微调子单元,用于根据各个所述实体关系训练特征向量之间的标准实体关系标注,反向微调所述第二深度置信网络各层的实体关系识别参数;
所述城市实体关系识别模型确定子单元,用于将反向微调后的所述第二深度置信网络确定为城市实体关系识别模型。
优选的,所述城市知识图谱构建模块,包括:确定单元和构建单元;
所述确定单元,用于将各个所述实体及其对应的属性标签分别确定为节点,并且,将各个所述实体之间的所述实体关系信息分别确定为有向线段;
所述构建单元,用于根据各个所述节点和各个所述有向线段构建城市知识图谱。
相较于现有技术,本发明实现的有益效果为:
以上本发明提供的一种城市知识图谱构建方法及装置,该方法通过预先生成城市实体识别模型以及城市实体关系识别模型,构建城市数据语料对应的城市知识图谱。这就保证了学习后的模型可以直接应用于智慧城市领域中的城市数据实体及实体关系识别,解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一公开的一种城市知识图谱构建方法流程图;
图2为本发明实施例一公开的另一种城市知识图谱构建方法部分流程图;
图3为本发明实施例二公开的一种城市知识图谱构建方法部分流程图;
图4为本发明实施例二公开的另一种城市知识图谱构建方法部分流程图;
图5为本发明实施例三公开的一种城市知识图谱构建装置结构示意图;
图6为本发明实施例三公开的另一种城市知识图谱构建装置部分结构示意图;
图7为本发明实施例四公开的一种城市知识图谱构建装置部分结构示意图;
图8为本发明实施例四公开的另一种城市知识图谱构建装置部分结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例一公开了一种城市知识图谱构建方法,方法流程图如图1所示,包括如下步骤:
S101,对城市数据语料进行分词,得到至少一个词组;
在执行步骤S101的过程中,可选的,首先对城市数据语料进行断句分割,得到城市数据语料包含的全部句子;再对断句分割得到的各个句子进行中文分词,得到各个词组。
S102,针对各个词组,提取特征并构建对应的特征向量;
在执行步骤S102的过程中,对于每一个词组来说,提取其中包含的特征;可选的,特征可为词特征、词性特征、上下文窗口特征、词典特征以及统计特征中的一个或多个,可根据实际需要选择具体特征;并根据选取的特征构建特征向量,其中,特征向量可为词项文本矩阵。
S103,根据各个词组对应的特征向量以及预先生成的城市实体识别模型,对各个词组进行实体识别,并为识别出的各个实体添加属性标签;
在执行步骤S103的过程中,对识别出的各个实体添加属性标签,其中,属性标签包含但不局限于人名标签、组织机构标签以及职位标签,可根据实际需要具体设定标签种类;例如,为识别出的实体“马云”添加的属性标签为人名标签,为识别出的实体“阿里巴巴”添加的属性标签为组织机构标签,为识别出的实体“CEO”添加的属性标签为职位标签。
S104,依据各个实体对应的特征向量以及预先生成的城市实体关系识别模型,对各个实体进行实体关系识别,得到各个实体之间的实体关系信息;
S105,根据各个实体、各个实体对应的属性标签以及各个实体之间的实体关系信息,构建城市知识图谱;
可选的,步骤S105的执行过程,如图2所示,包括如下步骤:
S201,将各个实体及其对应的属性标签分别确定为节点,并且,将各个实体之间的实体关系信息分别确定为有向线段;
在执行步骤S201的过程中,由于城市知识图谱的构建过程可分为三个环节,城市实体识别、城市实体关系识别以及结构化展示,并且城市知识图谱是可以图数据库的形式展示,因此,可将图数据库中的每一个节点映射为各个实体及其对应的属性标签,进一步将,将图数据库中的节点之间的有向线段映射为各个实体之间的实体关系信息。
S202,根据各个节点和各个有向线段构建城市知识图谱。
本发明实施例提供的一种城市知识图谱构建方法,通过预先生成城市实体识别模型以及城市实体关系识别模型,构建城市数据语料对应的城市知识图谱。这就保证了学习后的模型可以直接应用于智慧城市领域中的城市数据实体及实体关系识别,解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。
实施例二
结合上述本发明实施例一公开的城市知识图谱构建方法,如图1所示出的步骤S103中,预先生成城市实体识别模型的具体过程,如图3所示,包括如下步骤:
S301,对城市数据实体训练语料进行分词,得到至少一个实体训练词组;
S302,针对各个实体训练词组,提取特征并构建对应的实体训练特征向量;
S303,将各个实体训练特征向量作为用于识别城市实体的第一初始深度置信网络的输入数据,并对第一初始深度置信网络进行逐层无监督预训练,第一初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
在执行步骤S303的过程中,第一初始深度置信网络由至少一个受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)层堆叠而成,假设受限玻尔兹曼机层有N个,则第一初始深度置信网络中有N+1层,其中,第一层为输入层,N为第一初始深度置信网络中隐含层的数量,优选的,N为不小于3的正整数;每个受限玻尔兹曼机层由一层可见层和一层隐含层构成,其中,可见层为每个受限玻尔兹曼机层的输入层,第一个受限玻尔兹曼机层的输入层输入数据为各个实体训练特征向量,隐含层为每个受限玻尔兹曼机层的输出层,并且,每个受限玻尔兹曼机层的输出层可作为下一个受限玻尔兹曼机层的输入层。
S304,在预训练后的第一初始深度置信网络中添加一个神经网络层作为输出层,得到第一深度置信网络;
在执行步骤S304的过程中,在训练后的第一初始深度置信网络中添加一个神经网络(Back Propagation,BP)层作为第一深度置信网络最后的输出层,该神经网络层接收最后一个受限玻尔兹曼机层的输出特征向量,并将接收到的输出特征向量作为输入特征向量,进行有监督地训练第一深度置信网络,具体训练过程如下步骤S305和S306过程所述。
S305,根据各个实体训练特征向量对应的标准实体标注,反向微调第一深度置信网络各层的实体识别参数;
在执行步骤S305的过程中,神经网络层根据自身的输出实体结果与接收到的标准实体标注进行比较,比较的差值用来自动调整第一深度置信网络的实体识别参数,也就是,第一深度置信网络各层的权值和偏差值。
S306,将反向微调后的第一深度置信网络确定为城市实体识别模型。
本发明实施例提供的一种城市知识图谱构建方法,通过预先生成城市实体识别模型以及城市实体关系识别模型,构建城市数据语料对应的城市知识图谱。这就保证了学习后的模型可以直接应用于智慧城市领域中的城市数据实体及实体关系识别,解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。
结合上述本发明实施例一公开的城市知识图谱构建方法,如图1所示出的步骤S104中,预先生成城市实体关系识别模型的具体执行过程,如图4所示,包括如下步骤:
S401,对城市数据实体关系训练语料进行分词,得到至少一个实体关系训练词组;
S402,针对各个实体关系训练词组,提取特征并构建对应的实体关系训练特征向量;
S403,将各个实体关系训练特征向量作为用于识别城市实体关系的第二初始深度置信网络的输入数据,并对第二初始深度置信网络进行逐层无监督预训练,第二初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
在执行步骤S403的过程中,第二初始深度置信网络由至少一个受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)层堆叠而成,假设受限玻尔兹曼机层有M个,则第二初始深度置信网络中有M+1层,其中,第一层为输入层,M为第二初始深度置信网络中隐含层的数量,优选的,M为不小于3的正整数;每个受限玻尔兹曼机层由一层可见层和一层隐含层构成,其中,可见层为每个受限玻尔兹曼机层的输入层,第一个受限玻尔兹曼机层的输入层输入数据为各个实体关系训练特征向量,隐含层为每个受限玻尔兹曼机层的输出层,并且,每个受限玻尔兹曼机层的输出层可作为下一个受限玻尔兹曼机层的输入层。
S404,在预训练后的第二初始深度置信网络中添加一个神经网络层作为输出层,得到第二深度置信网络;
在执行步骤S304的过程中,在训练后的第二初始深度置信网络中添加一个神经网络(Back Propagation,BP)层作为第二深度置信网络最后的输出层,该神经网络层接收最后一个受限玻尔兹曼机层的输出特征向量,并将接收到的输出特征向量作为输入特征向量,进行有监督地训练第二深度置信网络,具体训练过程如下步骤S405和S406过程所述。
S405,根据各个实体关系训练特征向量之间的标准实体关系标注,反向微调第二深度置信网络各层的实体关系识别参数;
在执行步骤S405的过程中,神经网络层根据自身的输出实体结果与接收到的标准实体关系标注进行比较,比较的差值用来自动调整第二深度置信网络的实体关系识别参数,也就是,第二深度置信网络各层的权值和偏差值。
S406,将反向微调后的第二深度置信网络确定为城市实体关系识别模型。
本发明实施例提供的一种城市知识图谱构建方法,通过预先生成城市实体识别模型以及城市实体关系识别模型,构建城市数据语料对应的城市知识图谱。这就保证了学习后的模型可以直接应用于智慧城市领域中的城市数据实体及实体关系识别,解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。
实施例三
基于上述实施例一和实施例二公开的城市知识图谱构建方法,本发明实施例三则对应提供执行上述城市知识图谱构建方法的装置,其结构示意图如图5所示,城市知识图谱构建装置100包括:分词模块101、特征向量构建模块102、实体识别模块103、实体关系识别模块104和城市知识图谱构建模块105;实体识别模块103包括城市实体识别模型生成单元1031,实体关系识别模块104包括城市实体关系识别模型生成单元1041;
分词模型101,用于对城市数据语料进行分词,得到至少一个词组;
特征向量构建模块102,用于针对各个词组,提取特征并构建对应的特征向量;
实体识别模块103,用于根据各个词组对应的特征向量以及预先生成的城市实体识别模型,对各个词组进行实体识别,并为识别出的各个实体添加属性标签;
实体关系识别模块104,用于依据各个实体对应的特征向量以及预先生成的城市实体关系识别模型,对各个实体进行实体关系识别,得到各个实体之间的实体关系信息;
城市知识图谱构建模块105,用于根据各个实体、各个实体对应的属性标签以及各个实体之间的实体关系信息,构建城市知识图谱;
城市实体识别模型生成单元1031,用于预先生成城市实体识别模型;
城市实体关系识别模型生成单元1041,用于预先生成城市实体关系识别模型。
可选的,城市知识图谱构建模块105的结构示意图如图6所示,包括:确定单元201和构建单元202;
确定单元201,用于将各个实体及其对应的属性标签分别确定为节点,并且,将各个实体之间的实体关系信息分别确定为有向线段;
构建单元202,用于根据各个节点和各个有向线段构建城市知识图谱。
本发明实施例提供的一种城市知识图谱构建装置,通过预先生成城市实体识别模型以及城市实体关系识别模型,构建城市数据语料对应的城市知识图谱。这就保证了学习后的模型可以直接应用于智慧城市领域中的城市数据实体及实体关系识别,解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。
实施例四
结合上述本发明实施例三公开的城市知识图谱构建装置,如图5所示出的城市实体识别模型生成单元1031,其结构示意图如图7所示,包括:第一分词子单元301、第一特征向量构建子单元302、第一预训练子单元303、第一添加子单元304、第一反向微调子单元305和城市实体识别模型确定子单元306;
第一分词子单元301,用于对城市数据实体训练语料进行分词,得到至少一个实体训练词组;
第一特征向量构建子单元302,用于针对各个实体训练词组,提取特征并构建对应的实体训练特征向量;
第一预训练子单元303,用于将各个实体训练特征向量作为用于识别城市实体的第一初始深度置信网络的输入数据,并对第一初始深度置信网络进行逐层无监督预训练,第一初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
第一添加子单元304,用于在预训练后的第一初始深度置信网络中添加一个神经网络层作为输出层,得到第一深度置信网络;
第一反向微调子单元305,用于根据各个实体训练特征向量对应的标准实体标注,反向微调第一深度置信网络各层的实体识别参数;
城市实体识别模型确定子单元306,用于将反向微调后的第一深度置信网络确定为城市实体识别模型。
本发明实施例提供的一种城市知识图谱构建装置,通过预先生成城市实体识别模型以及城市实体关系识别模型,构建城市数据语料对应的城市知识图谱。这就保证了学习后的模型可以直接应用于智慧城市领域中的城市数据实体及实体关系识别,解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。
结合上述本发明实施例三公开的城市知识图谱构建装置,如图5所示出的城市实体关系识别模型生成单元1041,其结构示意图如图8所示,包括:第二分词子单元401、第二特征向量构建子单元402、第二预训练子单元403、第二添加子单元404、第二反向微调子单元405和城市实体关系识别模型确定子单元406;
第二分词子单元401,用于对城市数据实体关系训练语料进行分词,得到至少一个实体关系训练词组;
第二特征向量构建子单元402,用于针对各个实体关系训练词组,提取特征并构建对应的实体关系训练特征向量;
第二预训练子单元403,用于将各个实体关系训练特征向量作为用于识别城市实体关系的第二初始深度置信网络的输入数据,并对第二初始深度置信网络进行逐层无监督预训练,第二初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
第二添加子单元404,用于在预训练后的第二初始深度置信网络中添加一个神经网络层作为输出层,得到第二深度置信网络;
第二反向微调子单元405,用于根据各个实体关系训练特征向量之间的标准实体关系标注,反向微调第二深度置信网络各层的实体关系识别参数;
城市实体关系识别模型确定子单元406,用于将反向微调后的第二深度置信网络确定为城市实体关系识别模型。
本发明实施例提供的一种城市知识图谱构建装置,通过预先生成城市实体识别模型以及城市实体关系识别模型,构建城市数据语料对应的城市知识图谱。这就保证了学习后的模型可以直接应用于智慧城市领域中的城市数据实体及实体关系识别,解决了现有的利用浅层学习方法或者模式匹配方法不便于对智慧城市体系内容的扩充,也就不能为城市规划者提供直观参考的问题。
以上对本发明所提供的一种城市知识图谱构建方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种城市知识图谱构建方法,其特征在于,包括:
对城市数据语料进行分词,得到至少一个词组;
针对各个所述词组,提取特征并构建对应的特征向量;
根据各个所述词组对应的所述特征向量以及预先生成的城市实体识别模型,对各个所述词组进行实体识别,并为识别出的各个实体添加属性标签;
依据各个所述实体对应的所述特征向量以及预先生成的城市实体关系识别模型,对各个所述实体进行实体关系识别,得到各个所述实体之间的实体关系信息;
根据各个所述实体、各个所述实体对应的所述属性标签以及各个所述实体之间的所述实体关系信息,构建城市知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述预先生成城市实体识别模型的具体过程,包括:
对城市数据实体训练语料进行分词,得到至少一个实体训练词组;
针对各个所述实体训练词组,提取特征并构建对应的实体训练特征向量;
将各个所述实体训练特征向量作为用于识别城市实体的第一初始深度置信网络的输入数据,并对所述第一初始深度置信网络进行逐层无监督预训练,所述第一初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
在预训练后的所述第一初始深度置信网络中添加一个神经网络层作为输出层,得到第一深度置信网络;
根据各个所述实体训练特征向量对应的标准实体标注,反向微调所述第一深度置信网络各层的实体识别参数;
将反向微调后的所述第一深度置信网络确定为城市实体识别模型。
3.根据权利要求1所述的方法,其特征在于,所述预先生成城市实体关系识别模型的具体过程,包括:
对城市数据实体关系训练语料进行分词,得到至少一个实体关系训练词组;
针对各个所述实体关系训练词组,提取特征并构建对应的实体关系训练特征向量;
将各个所述实体关系训练特征向量作为用于识别城市实体关系的第二初始深度置信网络的输入数据,并对所述第二初始深度置信网络进行逐层无监督预训练,所述第二初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
在预训练后的所述第二初始深度置信网络中添加一个神经网络层作为输出层,得到第二深度置信网络;
根据各个所述实体关系训练特征向量之间的标准实体关系标注,反向微调所述第二深度置信网络各层的实体关系识别参数;
将反向微调后的所述第二深度置信网络确定为城市实体关系识别模型。
4.根据权利要求1所述的方法,其特征在于,所述根据各个所述实体、各个所述实体对应的所述属性标签以及各个所述实体之间的所述实体关系信息,构建城市知识图谱,包括:
将各个所述实体及其对应的属性标签分别确定为节点,并且,将各个所述实体之间的所述实体关系信息分别确定为有向线段;
根据各个所述节点和各个所述有向线段构建城市知识图谱。
5.一种城市知识图谱构建装置,其特征在于,包括:分词模块、特征向量构建模块、实体识别模块、实体关系识别模块和城市知识图谱构建模块;所述实体识别模块包括城市实体识别模型生成单元,所述实体关系识别模块包括城市实体关系识别模型生成单元;
所述分词模型,用于对城市数据语料进行分词,得到至少一个词组;
所述特征向量构建模块,用于针对各个所述词组,提取特征并构建对应的特征向量;
所述实体识别模块,用于根据各个所述词组对应的所述特征向量以及预先生成的城市实体识别模型,对各个所述词组进行实体识别,并为识别出的各个实体添加属性标签;
所述实体关系识别模块,用于依据各个所述实体对应的所述特征向量以及预先生成的城市实体关系识别模型,对各个所述实体进行实体关系识别,得到各个所述实体之间的实体关系信息;
所述城市知识图谱构建模块,用于根据各个所述实体、各个所述实体对应的所述属性标签以及各个所述实体之间的所述实体关系信息,构建城市知识图谱;
所述城市实体识别模型生成单元,用于预先生成城市实体识别模型;
所述城市实体关系识别模型生成单元,用于预先生成城市实体关系识别模型。
6.根据权利要求5所述的装置,其特征在于,所述城市实体识别模型生成单元包括:第一分词子单元、第一特征向量构建子单元、第一预训练子单元、第一添加子单元、第一反向微调子单元和城市实体识别模型确定子单元;
所述第一分词子单元,用于对城市数据实体训练语料进行分词,得到至少一个实体训练词组;
所述第一特征向量构建子单元,用于针对各个所述实体训练词组,提取特征并构建对应的实体训练特征向量;
所述第一预训练子单元,用于将各个所述实体训练特征向量作为用于识别城市实体的第一初始深度置信网络的输入数据,并对所述第一初始深度置信网络进行逐层无监督预训练,所述第一初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
所述第一添加子单元,用于在预训练后的所述第一初始深度置信网络中添加一个神经网络层作为输出层,得到第一深度置信网络;
所述第一反向微调子单元,用于根据各个所述实体训练特征向量对应的标准实体标注,反向微调所述第一深度置信网络各层的实体识别参数;
所述城市实体识别模型确定子单元,用于将反向微调后的所述第一深度置信网络确定为城市实体识别模型。
7.根据权利要求5所述的装置,其特征在于,所述城市实体关系识别模型生成单元,包括:第二分词子单元、第二特征向量构建子单元、第二预训练子单元、第二添加子单元、第二反向微调子单元和城市实体关系识别模型确定子单元;
所述第二分词子单元,用于对城市数据实体关系训练语料进行分词,得到至少一个实体关系训练词组;
所述第二特征向量构建子单元,用于针对各个所述实体关系训练词组,提取特征并构建对应的实体关系训练特征向量;
所述第二预训练子单元,用于将各个所述实体关系训练特征向量作为用于识别城市实体关系的第二初始深度置信网络的输入数据,并对所述第二初始深度置信网络进行逐层无监督预训练,所述第二初始深度置信网络由至少一个受限玻尔兹曼机层堆叠而成;
所述第二添加子单元,用于在预训练后的所述第二初始深度置信网络中添加一个神经网络层作为输出层,得到第二深度置信网络;
所述第二反向微调子单元,用于根据各个所述实体关系训练特征向量之间的标准实体关系标注,反向微调所述第二深度置信网络各层的实体关系识别参数;
所述城市实体关系识别模型确定子单元,用于将反向微调后的所述第二深度置信网络确定为城市实体关系识别模型。
8.根据权利要求5所述的装置,其特征在于,所述城市知识图谱构建模块,包括:确定单元和构建单元;
所述确定单元,用于将各个所述实体及其对应的属性标签分别确定为节点,并且,将各个所述实体之间的所述实体关系信息分别确定为有向线段;
所述构建单元,用于根据各个所述节点和各个所述有向线段构建城市知识图谱。
CN201710150462.5A 2017-03-14 2017-03-14 一种城市知识图谱构建方法及装置 Active CN106934032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710150462.5A CN106934032B (zh) 2017-03-14 2017-03-14 一种城市知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710150462.5A CN106934032B (zh) 2017-03-14 2017-03-14 一种城市知识图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN106934032A true CN106934032A (zh) 2017-07-07
CN106934032B CN106934032B (zh) 2019-10-18

Family

ID=59433407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710150462.5A Active CN106934032B (zh) 2017-03-14 2017-03-14 一种城市知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN106934032B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108052576A (zh) * 2017-12-08 2018-05-18 国家计算机网络与信息安全管理中心 一种事理知识图谱构建方法及系统
CN108388580A (zh) * 2018-01-24 2018-08-10 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN108563710A (zh) * 2018-03-27 2018-09-21 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及存储介质
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109582800A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种训练结构化模型、文本结构化的方法及相关装置
CN109597878A (zh) * 2018-11-13 2019-04-09 北京合享智慧科技有限公司 一种确定文本相似度的方法及相关装置
CN109815338A (zh) * 2018-12-28 2019-05-28 北京市遥感信息研究所 基于混合高斯模型的知识图谱中关系抽取方法和系统
CN110032647A (zh) * 2019-03-12 2019-07-19 埃睿迪信息技术(北京)有限公司 基于工业领域构建知识图谱的方法、装置及存储介质
CN110426493A (zh) * 2019-08-01 2019-11-08 北京软通智慧城市科技有限公司 空气质量监测数据校准方法、装置、设备和存储介质
CN110555137A (zh) * 2018-03-31 2019-12-10 华为技术有限公司 一种标签补齐方法及装置
WO2020007224A1 (zh) * 2018-07-06 2020-01-09 中兴通讯股份有限公司 知识图谱构建及智能应答方法、装置、设备及存储介质
CN111144115A (zh) * 2019-12-23 2020-05-12 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN112948595A (zh) * 2021-03-30 2021-06-11 中国科学院自动化研究所 城市群运行状态知识图谱构建方法、系统及设备
CN115510857A (zh) * 2022-11-22 2022-12-23 北京师范大学 一种游戏教育知识图谱构建方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置
US20160203137A1 (en) * 2014-12-17 2016-07-14 InSnap, Inc. Imputing knowledge graph attributes to digital multimedia based on image and video metadata

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
US20160203137A1 (en) * 2014-12-17 2016-07-14 InSnap, Inc. Imputing knowledge graph attributes to digital multimedia based on image and video metadata
CN105468583A (zh) * 2015-12-09 2016-04-06 百度在线网络技术(北京)有限公司 一种实体关系的获取方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108052576A (zh) * 2017-12-08 2018-05-18 国家计算机网络与信息安全管理中心 一种事理知识图谱构建方法及系统
CN108052576B (zh) * 2017-12-08 2021-04-23 国家计算机网络与信息安全管理中心 一种事理知识图谱构建方法及系统
CN108388580A (zh) * 2018-01-24 2018-08-10 平安医疗健康管理股份有限公司 融合医学知识及应用病例的动态知识图谱更新方法
CN108563710B (zh) * 2018-03-27 2021-02-02 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及存储介质
CN108563710A (zh) * 2018-03-27 2018-09-21 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及存储介质
CN110555137A (zh) * 2018-03-31 2019-12-10 华为技术有限公司 一种标签补齐方法及装置
WO2020007224A1 (zh) * 2018-07-06 2020-01-09 中兴通讯股份有限公司 知识图谱构建及智能应答方法、装置、设备及存储介质
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109582800A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种训练结构化模型、文本结构化的方法及相关装置
CN109597878A (zh) * 2018-11-13 2019-04-09 北京合享智慧科技有限公司 一种确定文本相似度的方法及相关装置
CN109815338A (zh) * 2018-12-28 2019-05-28 北京市遥感信息研究所 基于混合高斯模型的知识图谱中关系抽取方法和系统
CN110032647A (zh) * 2019-03-12 2019-07-19 埃睿迪信息技术(北京)有限公司 基于工业领域构建知识图谱的方法、装置及存储介质
CN110426493A (zh) * 2019-08-01 2019-11-08 北京软通智慧城市科技有限公司 空气质量监测数据校准方法、装置、设备和存储介质
CN110426493B (zh) * 2019-08-01 2021-10-29 北京软通智慧科技有限公司 空气质量监测数据校准方法、装置、设备和存储介质
CN111144115A (zh) * 2019-12-23 2020-05-12 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN111144115B (zh) * 2019-12-23 2023-10-20 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN112948595A (zh) * 2021-03-30 2021-06-11 中国科学院自动化研究所 城市群运行状态知识图谱构建方法、系统及设备
CN115510857A (zh) * 2022-11-22 2022-12-23 北京师范大学 一种游戏教育知识图谱构建方法及装置

Also Published As

Publication number Publication date
CN106934032B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN106934032A (zh) 一种城市知识图谱构建方法及装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Moore et al. The growth of knowledge and the discursive gap
CN109493166A (zh) 一种针对电子商务导购场景任务型对话系统的构建方法
CN107273355A (zh) 一种基于字词联合训练的中文词向量生成方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN102262634B (zh) 一种自动问答方法及系统
CN111475629A (zh) 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN103646110B (zh) 自然人基本身份信息匹配方法
CN107633005A (zh) 一种基于课堂教学内容的知识图谱构建、对比系统及方法
CN107818164A (zh) 一种智能问答方法及其系统
CN110443571A (zh) 基于知识图谱进行简历评估的方法、装置及设备
CN104133848A (zh) 藏语实体知识信息抽取方法
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
CN105095319A (zh) 基于时间序列化的文档的标识、关联、搜索及展现的系统
CN109545218A (zh) 一种语音识别方法及系统
CN109308321A (zh) 一种知识问答方法、知识问答系统及计算机可读存储介质
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN107423287A (zh) 平面几何证明题自动解答方法及系统
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN103116657A (zh) 一种网络教学资源的个性化搜索方法
CN110888989B (zh) 一种智能学习平台及其构建方法
CN112597316A (zh) 一种可解释性推理问答方法及装置
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN108932278A (zh) 基于语义框架的人机对话方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Ye Yuping

Inventor after: Zeng Qiwen

Inventor after: Wang Hongchao

Inventor before: Zhang Minghui

Inventor before: Liu Yong

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20180319

Address after: 100094, No. 16, No. 16, No. 10, hospital No. 10, Wandong Road, northwest of Haidian District, Beijing City, 506

Applicant after: Beijing ruantong Zhicheng Technology Co. Ltd.

Address before: 100193, No. 16, No. 16, No. 10, hospital No. 10, Wandong Road, northwest of Haidian District, Beijing City, 502

Applicant before: Isoftstone Power Information Technology (Group) Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210201

Address after: 100094 room 106, 1st floor, building 16, east yard, No.10, xibeiwangdong Road, Haidian District, Beijing

Patentee after: Beijing Softcom Smart City Technology Co.,Ltd.

Address before: 506, 5 / F, building 16, east yard, No. 10, xibeiwangdong Road, Haidian District, Beijing 100094

Patentee before: BEIJING ISOFTSTONE ZHICHENG TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address

Address after: Room 301-1, floor 3, building 10, Zhongguancun Software Park, No. 8, Dongbeiwang West Road, Haidian District, Beijing 100193

Patentee after: Beijing softong Intelligent Technology Co.,Ltd.

Address before: 100094 room 106, 1st floor, building 16, east yard, No.10, xibeiwangdong Road, Haidian District, Beijing

Patentee before: Beijing Softcom Smart City Technology Co.,Ltd.

CP03 Change of name, title or address