CN109446343B - 一种公共安全知识图谱构建的方法 - Google Patents
一种公共安全知识图谱构建的方法 Download PDFInfo
- Publication number
- CN109446343B CN109446343B CN201811305793.2A CN201811305793A CN109446343B CN 109446343 B CN109446343 B CN 109446343B CN 201811305793 A CN201811305793 A CN 201811305793A CN 109446343 B CN109446343 B CN 109446343B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- entities
- attribute
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims description 37
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 7
- 231100000279 safety data Toxicity 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 12
- 230000007717 exclusion Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 5
- 230000002093 peripheral effect Effects 0.000 claims description 4
- 241000533950 Leucojum Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000006698 induction Effects 0.000 claims description 3
- 238000013441 quality evaluation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种公共安全知识图谱构建的方法,包括:步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模;步骤二,从当前公共安全数据源进行知识抽取;步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储;步骤四,将从各数据源采集的知识进行知识融合;步骤五,对完成知识融合的知识图谱进行知识加工。本发明在数据源足够支撑的情况下,使得覆盖公共安全领域的知识更加全面。
Description
技术领域
本发明涉及公共安全领域以及语义网络领域,尤其涉及公共安全知识图谱构建方法。
背景技术
随着大数据与人工智能的发展,知识图谱作为人工智能技术的重要组成部分,因其强大的语义处理、互联组织、信息检索以及知识推理能力,已经被广泛应用于智能搜索、人机问答、个性化推荐等方向,为医疗、金融等多个领域的知识化组织与智能化应用提供了技术基础。本质上,知识图谱是一张巨大的语义网络图,通过节点表示实体或者概念、边表示关系来描述真实世界中存在的各种实体或者概念以及其关系。
公共安全领域随着大数据技术的深度应用,开启了新的纪元。通过有效地整合各类数据、构建多维分析模型等方式,提升了情报洞察、分析研判、侦查打击以及指挥管理的能力。但是随着数据融合的不断深入,业务建模的不断整合,公共安全大数据对更加深入地关联挖掘能力、更加智能化的预警预测能力以及更加全方位的分析研判能力的需求变得愈加迫切。
由上可知,将知识图谱应用于公共安全领域,借助知识图谱强大的互联以及推理能力,进行关系深度挖掘、案情智能推理以及事件主动预测,是符合公共安全行业的发展趋势的。同时,公共安全大数据对海量数据的收集、整理以及归类,也为公共安全知识图谱的构建奠定了基础。但由于当前知识图谱作为全新的技术领域,其在公共安全领域的应用几乎还处于空白阶段,且其构建技术多数还停留在常规的主体以及简单的关系,缺乏广泛性。
发明内容
本发明的目的在于提供一种公共安全知识图谱构建的方法,有效构建公共安全知识图谱。
实现上述目的的技术方案是:
一种公共安全知识图谱构建的方法,包括:
步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模;
步骤二,从当前公共安全数据源进行知识抽取;
步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储;
步骤四,将从各数据源采集的知识进行知识融合;
步骤五,对完成知识融合的知识图谱进行知识加工。
优选的,所述的步骤一中,本体建模采用自顶向下与自底向上相结合的构建方式,包括:
步骤S11,采用自顶向下的构建方式进行类以及类层次的构建:采用公共安全“人、事、物、点、组织”基本要素作为基础类,再根据数据源特征以及实际业务,从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度;类以及类层次关系构建完毕后,进一步的构建类的交叉关系,包括互斥、交集、并集、补集以及继承关系;
步骤S12,采用自顶向下与自底向上相结合的方式进行关系以及关系关联的构建:首先通过自顶向下的方式对基础的抽象关系进行构建,包括从属关系、互斥关系、等价关系以及冲突关系;再采用自底向上的方式,对于关系型数据源抽取其关联外键构建实例关系,非关系型数据源采用语义依存构建实例关系,且每一种实例关系至少对应一种抽象关系;
步骤S13,采用自底向上的方式进行实体与属性构建:对于关系型数据源直接从数据表字段中抽取实体与属性,而对于非关系型数据源则通过语义依存分析进行聚类分析抽取实体与属性,且每个属性至少对应一个实体,每个实体至少属于一个类。
优选的,所述步骤二中,知识抽取的数据源包括关系型数据以及非关系型数据;知识抽取的内容包含:实体、属性和关系;
其中,关系型数据源的知识抽取采用数据治理以及资源描述框架技术,非关系型数据源知识抽取采用文本语义分析提取技术;对于抽取实体、关系以及属性,根据不同的数据来源以及抽取方式标识置信度。
优选的,知识抽取的数据源中,关系型数据来自于数据仓库以及各业务系统数据库,非关系型数据来自文案、新闻;置信度的计算中,数据仓库的数据源可以基本视为完全信任,置信度为100,各业务系统数据库的置信度根据实际的数据完善度进行计算;而非关系型数据源,依据具体的知识抽取结果的质量评估进行计算。
优选的,所述步骤三中,数据存储模式采用雪花型存储模式,以图数据库为中心,进行类以及类层级、实体以及实体的唯一标识、关系的存储;关系型数据库以及文档数据库作为外围数据存储,关系型数据库存储属性以及属性的层级关系,文档数据库存储文本以及文本关键词;关系型数据库、文档数据库通过实体的唯一标识与图数据库进行关联。
优选的,所述步骤四中,知识融合指:通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;具体包括:
步骤S41,对于全部共同唯一性属性值完全相同的两个实体,判断其共同非唯一性属性的值,当非唯一性属性值相同率达到某一阈值后,标识为相同实体;
步骤S42,对于部分共同唯一性属性值完全相同的两个实体,标识为实体冲突关系;
步骤S43,对于共同唯一性属性值完全不同,但非唯一性属性值相同率达到某一阈值的两个实体,标识为相似实体;
步骤S44,对于所述步骤S41中相同的实体,判断当前实体与目标实体是否都存在某一属性,若存在,则将属性的值进行合并后去重,若不存在,则将当前实体的属性以及属性值添加到目标实体;
步骤S45,对于所述步骤S41中相同的实体,判断当前实体与目标实体是否存在关联到某实体的相同关系,若不存在,则将目标实体与某实体关联此关系;对于当前实体与目标实体与某实体关联关系存在冲突的,将当前实体与目标实体取消相同实体标识,标识为冲突实体;
步骤S46,对于所述步骤S45中完成关系合并的当前实体,删除其重复实体、属性以及关系。
优选的,所述的步骤五中,通过知识推理技术进行知识补全以及冲突检测;知识补全包括对实体属性、属性未知属性值以及实体间未知关系进行补全;知识补全通过知识推理技术实现,且补全的知识仅针对知识推理结果为真且置信度为100的结果;冲突检测中,对存在冲突的知识进行甄别,对于存在冲突的知识,标识信度较低的知识为逻辑非。
优选的,所述步骤五,包括:
步骤S51,通过属性继承通过父类实体补全子类实体属性以及属性值,对于多继承的子类,继承其所有父类的属性以及属性值,对于同一属性父类属性值不唯一的,对属性值进行合并;
步骤S52,通过逻辑归纳补全实体属性以及属性值,对于同类实体均包含的属性进行补全,对于同类实体同一属相的值均相同进行补全,但同类实体同一属相的值不同的仅补全属性;
步骤S53,通过关系传递补全实体间关系,首先对连接两个直接关系为空的实体间的所有关系链进行抽象关系传递,针对传递结果为真的关系链,通过构建的实例关系进行推理,若推理结果依旧存在于实例关系中,则将此实例关系补全为实体间关系;
步骤S54,冲突检测内容包括属性值冲突以及关系冲突;其中,属性值冲突包括:父类子类属性以及属性值不一致、同类公共属性值不一致、互斥类互斥属性值相同;关系冲突包括:关系链推理结果为非,以及相同关系链不同实体间结果不一致;
步骤S55,对于存在冲突的知识,计算其置信度;多个冲突知识中:若某条知识置信度为100,则标记为真,其余知识标记为假;若不存在置信度为100的知识,则将置信度高于预设阈值的知识标记为真,低于预设阈值的知识标记为假,其余标记为未知。
本发明的有益效果是:本发明通过有效准确的方法实现知识图谱的构建,在数据源足够支撑的情况下,使得覆盖公共安全领域的知识更加全面;同时,本发明具有很强的公共安全领域特色,对领域的描述更加深刻,与实际业务结合更加紧密;本发明具备较强的知识推理能力,以及较高的一致性和准确性,并且知识存储方式能够适应不同的数据规模。
附图说明
图1为本发明的公共安全知识图谱构建方法的流程图;
图2为本发明实施例提供的本体构建中类以及类层级的示意图;
图3为本发明实施例提供的本体构建中属性以及属性层级的示意图;
图4为本发明实施例提供的公共安全知识抽取的流程图;
图5为本发明实施例提供的公共安全知识图谱子图谱的示意图;
图6为本发明实施例提供的公共安全知识图谱存储架构的示意图;
图7为本发明实施例提供的公共安全知识图谱知识融合的流程图;
图8为本发明实施例提供的公共安全知识图谱知识加工的流程图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1,本发明的公共安全知识图谱构建的方法,包括:
步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模。建模内容包括:类以及类层次构建、关系以及关系关联构建、属性以及属性与类关联关系的构建。构建方式采用自顶向下与自底向上相结合的方式。包括:
步骤S11,采用自顶向下的构建方式进行类以及类层次的构建:采用公共安全“人、事、物、点、组织”基本要素作为基础类,再根据数据源特征以及实际业务,从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度;类以及类层次关系构建完毕后,进一步的构建类的交叉关系,包括互斥、交集、并集、补集以及继承关系。如图2所示,本体构建中类以及类层级的构建方式,如下:
针对公共安全领域“人”这一要素进行类以及类层级构建。“人”这一类作为基础类。根据实际的公安业务,对“人”这一类继续进行展开,分为“重点人员”与“常住人口”,显然,“重点人员”与“常住人口”仅是“人”这一基础类下的子类的部分示例。对“重点人员”以及“常住人口”继续进行展开,“重点人员”划分为“涉毒人员”以及“在逃人员”,“常住人口”划分为“户籍人口”与“流动人口”。
步骤S12,采用自顶向下与自底向上相结合的方式进行关系以及关系关联的构建:首先通过自顶向下的方式对基础的抽象关系进行构建,包括从属关系、互斥关系、等价关系以及冲突关系;再采用自底向上的方式,对于关系型数据源抽取其关联外键构建实例关系,非关系型数据源采用语义依存构建实例关系,且每一种实例关系至少对应一种抽象关系。如图2中,进行类关系的构建。其中“人”基础类与“重点人员”以及“常住人口”为父类与子类,即关系为“所属”关系。其中,“户籍人口”为“常住人口”中拥有本地户籍的人口,“流动人口”为“常住人口”中外地户籍的人口,故“户籍人口”与“流动人口”相互不包含,即是“互斥”关系。
步骤S13,采用自底向上的方式进行实体与属性构建:对于关系型数据源直接从数据表字段中抽取实体与属性,而对于非关系型数据源则通过语义依存分析进行聚类分析抽取实体与属性,且每个属性至少对应一个实体,每个实体至少属于一个类。如图3所示,本体构建中属性以及属性层级的构建方式:
每个类均包含一套本类的属性以及属性层级,且子类可以继承父类的属性以及属性层级。所述类的属性划分为“唯一属性”与“非唯一属性”,所述“唯一属性”为属性值为唯一值的属性。其中“唯一属性”与“非唯一属性”又根据实际公共安全业务的需要,划分为“基础属性”、“社会属性”,“物品属性”等。示例中,“唯一属性”中“基础属性”又继续划分为“身份证号”以及“护照号”等。
步骤二,从当前公共安全数据源进行知识抽取。知识抽取的数据源包括关系型数据以及非关系型数据;由于关系型数据源具有很强的格式性和逻辑性,且准确度相对比较高。特别是数据仓库中,经过数据治理的关系型数据源,涵盖的数据范围广,数据分类明确且精确性高。所以关系型数据源作为公共安全知识图谱构建的主要数据源。
知识抽取的内容包含:实体、属性和关系。关系型数据源来自于各业务应用系统数据库,同时,围绕关系型数据源包含大量非关系型数据,如笔录、案情描述以及新闻舆情等。
其中,关系型数据源的知识抽取采用数据治理以及资源描述框架技术,非关系型数据源知识抽取采用文本语义分析提取技术;对于抽取实体、关系以及属性,根据不同的数据来源以及抽取方式标识置信度。
具体地,如图4所示,本发明实施例提供的一种知识抽取的流程图。针对进行知识抽取的数据源判断其属于关系型数据源以及非关系型数据源。由于,公共安全数据源中,笔录、案情描述等文档内容,部分存储在关系型数据库字段中,而部分人员、关系、轨迹等信息按照关系型数据库的导入格式存储在csv、excel文档中,故关系型数据源与非关系型数据源的界定不能以具体数据存储介质的类型进行界定,而需要根据实际的内容以及映射关系进行界定。置信度的计算中,数据仓库的数据源可以基本视为完全信任,置信度为100,各业务系统数据库的置信度根据实际的数据完善度进行计算;而非关系型数据源,依据具体的知识抽取结果的质量评估进行计算。
关系型数据源的知识抽取包括:信息映射、表主键抽取、表字段抽取以及表外键关联抽取。信息映射构建关系型数据源到知识图谱的映射关系,包括数据库地址、登陆信息的映射、数据表字段的映射、数据表关系的映射。由于关系型数据源存储中,主键通常为实体的唯一标识,所以通过所述表主键抽取进行实体的抽取。而且其他字段的内容,大部分是针对该条数据的描述,故通过所述表字段抽取获取实体属性。而各表数据的关系通常通过外键进行关联,故通过所述表外键关联抽取获取实体关系。
针对非关系型数据源的知识抽取,采用自动以及半自动的文本挖掘以及语义分析算法进行实体、属性以及关系的抽取。抽取步骤包括:实体识别、语义分析、属性抽取以及关系抽取。
实体识别中,由于公共安全数据源的特殊性,关系型数据源中包括了大量且可信性高的实体。故非关系型数据源的实体识别优先采用基于规则以及词典的方法,通过文本分词结果与关系型数据源实体名称的快速比对,进行实体的识别。同时,非关系型数据源中也包含了开放域的实体,需要通过基于统计机器学习的算法进行抽取,算法不限于TF-IDF、LDA等算法。
语义抽取在已抽取完成的实体的基础上,通过对中文语言结构的分析和识别,进一步提取实体的上下位关系以及语义依存关系,形成不同形式的依存句法,包括:主谓宾关系、动宾关系以及介宾关系等。通过不同的依存语法,确定其语义结构是实体属性或者是实体间关联关系。针对所述语义结构为实体属性的,进行属性抽取,针对所述语义结构为实体关系的,进行关系抽取。
由于关系型数据源与非关系型数据源的界定不能以具体数据存储介质的类型进行界定,且在存储层存在相互包含的关系。举例来说,在审讯笔录关系型数据表中,既包括笔录的具体内容,属于非关系型数据源,同时又包括了审讯开始/结束时间、审讯地点、审讯干警等信息,属于关系型数据源。故在完成知识抽取后,还需要通过信息关联,将非关系型数据源与关系型数据源的内容进行关联。在信息关联的同时,同时进行所述置信度的标注。
经所述知识抽取,获取一种公共安全知识图谱。如图5所示,本发明实施例提供的一种知识图谱子图谱的示意图。
通过对关系型数据源的抽取,获取了三个实体,“XX派出所”、“张XX”和“XX案件”,以及“XX派出所”的“名称”、“行政区划代码”、“地址”、“经度”,“纬度”等属性,“张XX”警官的“姓名”、“身份证”、“警官号”、“性别”、“职务”等属性,其中“身份证号”为唯一属性。同时,获取了“XX警官”侦办“XX案件”以及“XX案件”的“案发时间”、“案发地点”等信息。通过对非关系型数据源的抽取,通过对“XX案件”审讯笔录进行知识抽取,获取了“XX案件”中“涉案人员”、“涉案物品”等属性。
步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储。由于公共安全数据量大、维度多的特点,仅靠图数据库是无法满足本实施例中所构建的知识图谱的存储要求的。故本实施例在公共安全知识图谱存储方面构建雪花型的存储模式,即以图数据库为中心,关系型数据库以及文档数据库作为外围数据存储的存储模式。
如图6所示,本发明实施例提供的一种公共安全知识图谱存储架构的示意图。其中以图数据库为中心,进行类以及类层级、实体、实体主要属性、关系、关系主要描述的存储;关系型数据库作为外围数据库,对实体的详细属性以及关系的详细描述进行存储;文档数据库由于适合文本的大批量存储以及快速的检索,用于对文本的关键词、概要以及文本原文进行存储。
上述的知识图谱存储的架构,不仅利用了图数据库对图快速、多层级的检索和表达能力,同时针对当前图数据库存储能力有限的特征进行了改进,将不影响图检索的实体详细属性和关系详细描述存储于关系型数据库中,将文档的关键词、概要以及原文存储与文档数据库中。
当进行知识挖掘时,首先通过图数据库进行相关实体、关系的检索,然后通过实体的唯一标识,从关系型数据库中获取实体的相信信息以及关系的详细描述。若设计到文本的,支持通过唯一标识、关键词等从文档数据库中快速检索文本内容,最后将检索结果合并返回,确保了数据查询的效率和整个知识图谱的响应速度。
步骤四,将从各数据源采集的知识进行知识融合。
通常情况下,由知识抽取构建的知识图谱,由于所涉及的公共安全数据源数据量大小不一、数据质量参差不齐以及同一信息可能在多个数据源中,使得所构建的知识图谱中存在大量冗余的实体、属性以及关系,同时,相同实体的不同表达信息可能被表达为不同实体。故需要通过知识融合步骤,对相同实体、相同实体的不同表达形式、相同实体不同属性、相同属性不同的值以及相同实体的不同关联关系进行融合。
如图7所示,公共安全知识图谱知识融合的流程图。知识融合指:通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;具体包括:
步骤S41,首先判断需要进行知识融合判断的实体是否属于同一大类,或者是否属于互斥类,显然,不属于同一大类的实体不可能为同一实体,互斥类相互不包含,也不可能存在一个实体同时属于两个互斥的类。
对于全部共同唯一性属性值完全相同的两个实体,判断其共同非唯一性属性的值,当非唯一性属性值相同率达到某一阈值后,标识为相同实体。
步骤S42,对于部分共同唯一性属性值完全相同的两个实体,标识为实体冲突关系。
步骤S43,对于共同唯一性属性值完全不同,但非唯一性属性值相同率达到某一阈值的两个实体,标识为相似实体。
步骤S44,对于步骤S41中相同的实体,判断当前实体与目标实体是否都存在某一属性,若存在,则将属性的值进行合并后去重,若不存在,则将当前实体的属性以及属性值添加到目标实体。
步骤S45,对于步骤S41中相同的实体,判断当前实体与目标实体是否存在关联到某实体的相同关系,若不存在,则将目标实体与某实体关联此关系;对于当前实体与目标实体与某实体关联关系存在冲突的,将当前实体与目标实体取消相同实体标识,标识为冲突实体。
步骤S46,对于步骤S45中完成关系合并的当前实体,删除其重复实体、属性以及关系。
通过上述融合,公共安全知识图谱已经初步具备了知识表达以及知识推理的能力,但是知识表达以及知识推理的能力还不够完善。因为,首先,部分可以通过已知知识推理出的确定的知识还未进行表达,同时,由于所述数据源类型繁多,质量参差不齐,可能存在知识冲突。而在公共安全领域,冲突的知识也许隐藏了案件侦破重要的线索,所以,对于冲突的知识,只能进行标识,不能删除。
步骤五,对完成知识融合的知识图谱进行知识加工。如图8所示,公共安全知识图谱知识加工的流程图,通过知识推理技术进行知识补全以及冲突检测。知识补全包括对实体属性、属性未知属性值以及实体间未知关系进行补全;知识补全通过知识推理技术实现,且补全的知识仅针对知识推理结果为真且置信度为100的结果。冲突检测中,对存在冲突的知识进行甄别,对于存在冲突的知识,标识信度较低的知识为逻辑非。包括:
步骤S51,通过属性继承通过父类实体补全子类实体属性以及属性值,对于多继承的子类,继承其所有父类的属性以及属性值,对于同一属性父类属性值不唯一的,对属性值进行合并。
步骤S52,通过逻辑归纳补全实体属性以及属性值,对于同类实体均包含的属性进行补全,对于同类实体同一属相的值均相同进行补全,但同类实体同一属相的值不同的仅补全属性;
步骤S53,通过关系传递补全实体间关系,首先对连接两个直接关系为空的实体间的所有关系链进行抽象关系传递,针对传递结果为真的关系链,通过构建的实例关系进行推理,若推理结果依旧存在于实例关系中,则将此实例关系补全为实体间关系。
步骤S54,冲突检测,内容包括属性值冲突以及关系冲突;其中,属性值冲突包括:父类子类属性以及属性值不一致、同类公共属性值不一致、互斥类互斥属性值相同等。关系冲突包括:关系链推理结果为非,以及相同关系链不同实体间结果不一致等。
步骤S55,冲突标识,对于存在冲突的知识,计算其置信度;多个冲突知识中:若某条知识置信度为100,则标记为真,其余知识标记为假;若不存在置信度为100的知识,则将置信度高于预设阈值的知识标记为真,低于预设阈值的知识标记为假,其余标记为未知。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。
Claims (7)
1.一种公共安全知识图谱构建的方法,其特征在于,包括:
步骤一,根据公共安全领域所涵盖的数据来源以及业务特征进行本体建模;
步骤二,从当前公共安全数据源进行知识抽取;
步骤三,通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识进行存储;
步骤四,将从各数据源采集的知识进行知识融合;
步骤五,对完成知识融合的知识图谱进行知识加工;
所述的步骤一中,本体建模采用自顶向下与自底向上相结合的构建方式,包括:
步骤S11,采用自顶向下的构建方式进行类以及类层次的构建:采用公共安全“人、事、物、点、组织”基本要素作为基础类,再根据数据源特征以及实际业务,从基础类开始,以多叉树的结构进行展开,构建类之间的层级关系,直到最小粒度;类以及类层次关系构建完毕后,进一步的构建类的交叉关系,包括互斥、交集、并集、补集以及继承关系;
步骤S12,采用自顶向下与自底向上相结合的方式进行关系以及关系关联的构建:首先通过自顶向下的方式对基础的抽象关系进行构建,包括从属关系、互斥关系、等价关系以及冲突关系;再采用自底向上的方式,对于关系型数据源抽取其关联外键构建实例关系,非关系型数据源采用语义依存构建实例关系,且每一种实例关系至少对应一种抽象关系;
步骤S13,采用自底向上的方式进行实体与属性构建:对于关系型数据源直接从数据表字段中抽取实体与属性,而对于非关系型数据源则通过语义依存分析进行聚类分析抽取实体与属性,且每个属性至少对应一个实体,每个实体至少属于一个类。
2.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述步骤二中,知识抽取的数据源包括关系型数据以及非关系型数据;知识抽取的内容包含:实体、属性和关系;
其中,关系型数据源的知识抽取采用数据治理以及资源描述框架技术,非关系型数据源知识抽取采用文本语义分析提取技术;对于抽取实体、关系以及属性,根据不同的数据来源以及抽取方式标识置信度。
3.根据权利要求2所述的公共安全知识图谱构建的方法,其特征在于,知识抽取的数据源中,关系型数据来自于数据仓库以及各业务系统数据库,非关系型数据来自文案、新闻;置信度的计算中,数据仓库的数据源视为完全信任,置信度为100,各业务系统数据库的置信度根据实际的数据完善度进行计算;而非关系型数据源,依据具体的知识抽取结果的质量评估进行计算。
4.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述步骤三中,数据存储模式采用雪花型存储模式,以图数据库为中心,进行类以及类层级、实体以及实体的唯一标识、关系的存储;关系型数据库以及文档数据库作为外围数据存储,关系型数据库存储属性以及属性的层级关系,文档数据库存储文本以及文本关键词;关系型数据库、文档数据库通过实体的唯一标识与图数据库进行关联。
5.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述步骤四中,知识融合指:通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;具体包括:
步骤S41,对于全部共同唯一性属性值完全相同的两个实体,判断其共同非唯一性属性的值,当非唯一性属性值相同率达到某一阈值后,标识为相同实体;
步骤S42,对于部分共同唯一性属性值完全相同的两个实体,标识为实体冲突关系;
步骤S43,对于共同唯一性属性值完全不同,但非唯一性属性值相同率达到某一阈值的两个实体,标识为相似实体;
步骤S44,对于所述步骤S41中相同的实体,判断当前实体与目标实体是否都存在某一属性,若存在,则将属性的值进行合并后去重,若不存在,则将当前实体的属性以及属性值添加到目标实体;
步骤S45,对于所述步骤S41中相同的实体,判断当前实体与目标实体是否存在关联到某实体的相同关系,若不存在,则将目标实体与某实体关联此关系;对于当前实体与目标实体与某实体关联关系存在冲突的,将当前实体与目标实体取消相同实体标识,标识为冲突实体;
步骤S46,对于所述步骤S45中完成关系合并的当前实体,删除其重复实体、属性以及关系。
6.根据权利要求1所述的公共安全知识图谱构建的方法,其特征在于,所述的步骤五中,通过知识推理技术进行知识补全以及冲突检测;知识补全包括对实体属性、属性未知属性值以及实体间未知关系进行补全;知识补全通过知识推理技术实现,且补全的知识仅针对知识推理结果为真且置信度为100的结果;冲突检测中,对存在冲突的知识进行甄别,对于存在冲突的知识,标识信度较低的知识为逻辑非。
7.根据权利要求6所述的公共安全知识图谱构建的方法,其特征在于,所述步骤五,包括:
步骤S51,通过属性继承通过父类实体补全子类实体属性以及属性值,对于多继承的子类,继承其所有父类的属性以及属性值,对于同一属性父类属性值不唯一的,对属性值进行合并;
步骤S52,通过逻辑归纳补全实体属性以及属性值,对于同类实体均包含的属性进行补全,对于同类实体同一属相的值均相同进行补全,但同类实体同一属相的值不同的仅补全属性;
步骤S53,通过关系传递补全实体间关系,首先对连接两个直接关系为空的实体间的所有关系链进行抽象关系传递,针对传递结果为真的关系链,通过构建的实例关系进行推理,若推理结果依旧存在于实例关系中,则将此实例关系补全为实体间关系;
步骤S54,冲突检测内容包括属性值冲突以及关系冲突;其中,属性值冲突包括:父类子类属性以及属性值不一致、同类公共属性值不一致、互斥类互斥属性值相同;关系冲突包括:关系链推理结果为非,以及相同关系链不同实体间结果不一致;
步骤S55,对于存在冲突的知识,计算其置信度;多个冲突知识中:若某条知识置信度为100,则标记为真,其余知识标记为假;若不存在置信度为100的知识,则将置信度高于预设阈值的知识标记为真,低于预设阈值的知识标记为假,其余标记为未知。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811305793.2A CN109446343B (zh) | 2018-11-05 | 2018-11-05 | 一种公共安全知识图谱构建的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811305793.2A CN109446343B (zh) | 2018-11-05 | 2018-11-05 | 一种公共安全知识图谱构建的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446343A CN109446343A (zh) | 2019-03-08 |
CN109446343B true CN109446343B (zh) | 2020-10-27 |
Family
ID=65550441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811305793.2A Active CN109446343B (zh) | 2018-11-05 | 2018-11-05 | 一种公共安全知识图谱构建的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446343B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008355A (zh) * | 2019-04-11 | 2019-07-12 | 华北科技学院 | 基于知识图谱的灾害场景信息融合方法及装置 |
CN109992672A (zh) * | 2019-04-11 | 2019-07-09 | 华北科技学院 | 基于灾害场景的知识图谱构建方法 |
CN110188207B (zh) * | 2019-05-15 | 2021-06-04 | 出门问问创新科技有限公司 | 知识图谱构建方法及装置、可读存储介质、电子设备 |
CN110275919B (zh) * | 2019-06-18 | 2021-06-18 | 合肥工业大学 | 数据集成方法及装置 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110413795A (zh) * | 2019-06-21 | 2019-11-05 | 厦门美域中央信息科技有限公司 | 一种数据驱动的专业知识图谱构建方法 |
CN110543571A (zh) * | 2019-08-07 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 用于水利信息化的知识图谱构建方法以及装置 |
CN110457502B (zh) * | 2019-08-21 | 2023-07-18 | 京东方科技集团股份有限公司 | 构建知识图谱方法、人机交互方法、电子设备及存储介质 |
CN111538771A (zh) * | 2019-09-12 | 2020-08-14 | 北京睿企信息科技有限公司 | 一种基于大数据的人物档案聚合系统及方法 |
CN110569369A (zh) * | 2019-09-16 | 2019-12-13 | 神州数码融信软件有限公司 | 银行金融系统知识图谱的生成方法及装置、应用方法及装置 |
CN110909168B (zh) * | 2019-09-23 | 2023-02-24 | 腾讯科技(深圳)有限公司 | 知识图谱的更新方法和装置、存储介质及电子装置 |
CN110674360B (zh) * | 2019-09-27 | 2023-03-31 | 厦门美亚亿安信息科技有限公司 | 一种用于数据的溯源方法和系统 |
CN110750647B (zh) * | 2019-10-17 | 2020-07-31 | 北京华宇信息技术有限公司 | 一种多源异构情报数据的elp模型的构建方法 |
CN110888808B (zh) * | 2019-11-16 | 2023-01-31 | 云南湾谷科技有限公司 | 一种基于知识图谱的Web智能化测试的方法 |
CN111046190B (zh) * | 2019-11-28 | 2021-03-26 | 佰聆数据股份有限公司 | 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备 |
CN110928963B (zh) * | 2019-11-28 | 2023-10-24 | 西安理工大学 | 针对运维业务数据表的列级权限知识图谱构建方法 |
CN110990585B (zh) * | 2019-11-29 | 2024-01-30 | 上海勘察设计研究院(集团)股份有限公司 | 构建行业知识图谱的多源数据和时间序列处理方法及装置 |
CN111090683B (zh) * | 2019-11-29 | 2023-12-22 | 上海勘察设计研究院(集团)股份有限公司 | 一种工程领域知识图谱构建方法及其生成装置 |
CN111309944B (zh) * | 2020-01-20 | 2023-07-14 | 同方知网数字出版技术股份有限公司 | 一种基于图数据库的数字人文搜索方法 |
CN111581393B (zh) * | 2020-04-28 | 2022-11-25 | 国家电网有限公司客户服务中心 | 一种基于电力行业客户服务数据的知识图谱的构建方法 |
CN113569051A (zh) * | 2020-04-29 | 2021-10-29 | 北京金山数字娱乐科技有限公司 | 一种知识图谱构建方法及装置 |
CN111898852A (zh) * | 2020-06-15 | 2020-11-06 | 广州智能科技发展有限公司 | 企业隐患和事故知识图谱构建方法、电子设备、存储介质 |
CN111797243A (zh) * | 2020-07-03 | 2020-10-20 | 中国烟草总公司湖南省公司 | 知识图谱数据系统构建方法、系统、终端及可读存储介质 |
CN112069817A (zh) * | 2020-07-17 | 2020-12-11 | 中国科学院计算机网络信息中心 | 一种学者知识抽取与融合方法及装置 |
CN111914569B (zh) * | 2020-08-10 | 2023-07-21 | 安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
CN112434169B (zh) * | 2020-11-13 | 2024-03-15 | 海创汇科技创业发展股份有限公司 | 一种知识图谱的构建方法及其系统和计算机设备 |
CN113806549A (zh) * | 2021-02-09 | 2021-12-17 | 京东科技控股股份有限公司 | 人员关系图谱的构建方法、装置及电子设备 |
CN114064922B (zh) * | 2021-11-18 | 2023-07-14 | 西南交通大学 | 一种基于第三方云平台的服务价值链多链知识图谱构建方法 |
CN114218234B (zh) * | 2022-02-22 | 2022-04-29 | 深圳市一号互联科技有限公司 | 一种原生图数据存储方法 |
CN115858816A (zh) * | 2022-12-27 | 2023-03-28 | 北京融信数联科技有限公司 | 面向公共安全领域的智能体认知图谱的构建方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN106909662A (zh) * | 2017-02-27 | 2017-06-30 | 腾讯科技(上海)有限公司 | 知识图谱构建方法及装置 |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
CN108595449A (zh) * | 2017-11-23 | 2018-09-28 | 北京科东电力控制系统有限责任公司 | 调度自动化系统知识图谱的构建与应用方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8935199B2 (en) * | 2010-12-14 | 2015-01-13 | Xerox Corporation | Method and system for linking textual concepts and physical concepts |
-
2018
- 2018-11-05 CN CN201811305793.2A patent/CN109446343B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN106909662A (zh) * | 2017-02-27 | 2017-06-30 | 腾讯科技(上海)有限公司 | 知识图谱构建方法及装置 |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
CN108595449A (zh) * | 2017-11-23 | 2018-09-28 | 北京科东电力控制系统有限责任公司 | 调度自动化系统知识图谱的构建与应用方法 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于公共资源交易领域的知识图谱构建和可视化系统设计;孙涵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015;第26-33页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109446343A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446343B (zh) | 一种公共安全知识图谱构建的方法 | |
CN110046260B (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
WO2019200752A1 (zh) | 基于语义理解的兴趣点查询方法、装置和计算机设备 | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
Ghahremanlou et al. | Geotagging twitter messages in crisis management | |
EP2562659A1 (en) | Data mapping acceleration | |
CN112507160A (zh) | 商标侵权的自动化判定方法、装置、电子设备和存储介质 | |
US11983297B2 (en) | Efficient statistical techniques for detecting sensitive data | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
Amaral et al. | Foundational ontologies, ontology‐driven conceptual modeling, and their multiple benefits to data mining | |
CN114595689A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN112907358A (zh) | 贷款用户信用评分方法、装置、计算机设备和存储介质 | |
Rehs | A supervised machine learning approach to author disambiguation in the Web of Science | |
CN111666419A (zh) | 法律数据的知识图谱构建方法及装置 | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
Rowe et al. | Disambiguating identity web references using Web 2.0 data and semantics | |
Sun et al. | Conflating point of interest (POI) data: A systematic review of matching methods | |
CN112699245A (zh) | 预算管理知识图谱的构建方法、装置及应用方法、装置 | |
Wang et al. | An ontology automation construction scheme for Chinese e‐government thesaurus optimizing | |
Chen et al. | A multi-source heterogeneous spatial big data fusion method based on multiple similarity and voting decision | |
Sinha et al. | My City, My Voice: Listening to the Citizen Views from Web Sources | |
van Delden et al. | Searching for business websites | |
CN117055818B (zh) | 基于区块链的客户信息存储管理方法及系统 | |
CN112364177B (zh) | 用于建立电网知识图谱的逻辑模型的方法及系统和介质 | |
CN113157882B (zh) | 以用户语义为中心的知识图谱路径检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |