CN112434169A - 一种知识图谱的构建方法及其系统和计算机设备 - Google Patents
一种知识图谱的构建方法及其系统和计算机设备 Download PDFInfo
- Publication number
- CN112434169A CN112434169A CN202011265000.6A CN202011265000A CN112434169A CN 112434169 A CN112434169 A CN 112434169A CN 202011265000 A CN202011265000 A CN 202011265000A CN 112434169 A CN112434169 A CN 112434169A
- Authority
- CN
- China
- Prior art keywords
- entity
- database
- knowledge
- entities
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000011156 evaluation Methods 0.000 claims description 36
- 238000000605 extraction Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013441 quality evaluation Methods 0.000 claims description 8
- 238000005295 random walk Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000004148 unit process Methods 0.000 claims description 3
- 241000238631 Hexapoda Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 244000025361 Ficus carica Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种知识图谱的构建方法,包括构建本体模型,根据预设应用场景所在的领域相关的数据源及业务特征构建本体模型;知识抽取,知识融合,去掉重复的实体、属性以及关系;实体消歧,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;知识加工,对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。本发明还公开了一种知识图谱的构建系统及计算机设备。本发明通过在知识融合和实体消歧步骤中,去除重复具有歧义、多义等实体,构建了高质量的知识图谱。
Description
技术领域
本发明涉及计算机软件技术领域,具体涉及一种企业知识图谱的构建方法及其系统和应用。
背景技术
知识图谱(Knowledge graph)的研究最早可追溯到1977年,在第五届国际人工智能会议上,美国计算机科学家Feigenbaum B.A.首次提出知识工程的概念。知识工程即针对用户提出的问题用知识库中已有的知识来求解的系统,其中最经典的是专家系统。2012年,谷歌(Google)发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。该项目通过对客观真实世界中各种实体及其关系的描绘,形成一张巨大的语义结构网络图,使各种庞杂无关的知识联系起来,从而达到便捷地获取知识的目的。
知识图谱是将大量收集的数据整理成机器能处理的知识库,并实现可视化的展示。知识图谱本质上是一种大规模的语义网络,其主要目的是对真实世界里实体或概念之间的关联关系进行描述。知识图谱一般包含逻辑结构和技术(体系)构架。知识图谱构建的一般步骤包括数据采集、知识抽取、知识融合、知识加工以及知识更新等步骤。
目前公开的指示图谱的构建方法中,对于数据源并没有相应的处理,使得抽取的知识单元包含了太多噪音或者具有歧义的实体,导致后期的实体消歧步骤不能完全消除实体的噪音和歧义,不能保证构建的知识图谱的质量。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种知识图谱的构建方法,通过在知识融合和实体消歧步骤中,去除重复具有歧义、多义等实体,构建高质量的知识图谱。
为解决上述问题,本发明所采用的技术方案如下:
一种知识图谱的构建方法,包括
构建本体模型,根据预设应用场景所在的领域相关的数据源及业务特征构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工,对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
作为进一步优选的方案,本发明在构建本体模型时,根据预设应用场景的特性选择采用采用自底向上、或者自顶向下、或自底向上与自顶向下两者相结合的构建方式。
作为进一步优选的方案,本发明所述的知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。
作为进一步优选的方案,本发明所述的关系型数据来源于专业数据库或业务数据库,其中专业数据库的数据源视为完全信任,置信度C0=1,业务数据库的置信度根据信息完善度I和业务数据库的权威性进行计算;所述非关系型数据的数据源是通过爬虫集群由一个种开始在从网络、百科知识、媒体数据中抓取的数据,所述非关系型数据的置信度通过质量评估进行计算。
作为进一步优选的方案,本发明所述的业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中σ为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
作为进一步优选的方案,本发明所述的知识图谱的构建方法还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
进一步的,本发明还提供了一种知识图谱的构建系统,包括
数据源收集单元,用于收集预定场景的领域的相关数据源;
实体建模单元,用于根据预定场景的领域的相关数据源建立实体模型;
知识抽取单元,用于对数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式抽取的知识单元并进行存储;
知识融合单元,用于标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,去掉重复的实体、属性以及关系;
实体消歧单元,用于获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工单元,通过知识推理、质量评价对知识图谱进行加工。
进一步的,本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本发明所述方法的步骤。
进一步的,本发明还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述的方法的步骤。
相比现有技术,本发明的有益效果在于:
1.本发明所述的知识图谱的构建方法通过在知识融合和实体消歧步骤中,去除重复具有歧义、多义等实体,构建高质量的知识图谱。
2.进一步的,本发明所述的知识图谱的构建方法还通过对数据源的置信度进行计算,根据不同的数据源设置不同的计算方式,提高了数据源的置信度,进一步达到提高知识图谱质量的目的,
3.进一步的本发明所述的知识图谱的构建方法还设置了二次实体消歧,主要是对出去掉的实体进行筛选,避免筛除与目标实体存在关系的实体,保证了知识图谱的完整性。
下面结合附图和具体实施方式对本发明作进一步详细说明。
附图说明
图1为本发明所述的知识图谱的构建的流程图。
图2为本发明所述的知识图谱的构建系统结构图。
具体实施方式
实施例1
如图1所示,一种知识图谱的构建方法,应用场景是面向投资人的企业知识图谱,包括
构建本体模型,根据企业所在的领域相关的数据源及业务特征构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
具体的,由于企业的特性,实施例在本发明在构建本体模型时,根据采用自底向上的构建方式建模。
具体的,实施例1所述的知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。具体的,提取的知识单元包括该企业工商信息、上、下游企业、竞品企业、关联企业、投资信息、融资信息以及资产信息等。
具体的,实施例所述的关系型数据来源于专业数据库或业务数据库,其中专业数据库包括工商登记信息,数据源视为完全信任,置信度C0=1;业务数据库包括企业名录、黄页等数据,这部分数据源的置信度根据信息完善度I和业务数据库的权威性进行计算;所述的业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
实施例1对于非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中σ为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
进一步的,在上述实施例1的基础上,本发明所述的知识图谱的构建方法还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
实施例2
一种昆虫知识图谱的构建方法,包括
构建本体模型,根据生物领域相关的数据源及昆虫特性构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
具体的,由于企业的特性,实施例在本发明在构建本体模型时,根据采用自底向上的构建方式建模。
具体的,实施例1所述的知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。
具体的,实施例所述的关系型数据来源于专业数据库或业务数据库,其中专业数据库包括农业部信息网数据库、各国的昆虫博物馆数据库,数据源视为完全信任,置信度C0=1;
业务数据库包括昆虫百科全书、中国昆虫网等,这部分数据源的置信度根据信息完善度I和业务数据库的权威性进行计算;所述的业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
实施例2对于非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中σ为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
进一步的,在上述实施例2的基础上,本发明所述的知识图谱的构建方法还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
实施例3
一种知识图谱的构建系统,包括
数据源收集单元,用于收集预定场景的领域的相关数据源;
实体建模单元,用于根据预定场景的领域的相关数据源建立实体模型;
知识抽取单元,用于对数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式抽取的知识单元并进行存储;
知识融合单元,用于标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,去掉重复的实体、属性以及关系;
实体消歧单元,用于获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工单元,通过知识推理、质量评价对知识图谱进行加工。
进一步的,本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本发明所述方法的步骤。
进一步的,本发明还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述的方法的步骤。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (10)
1.一种知识图谱的构建方法,其特征在于,包括
构建本体模型,根据预设应用场景所在的领域相关的数据源及业务特征构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工,对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
2.根据权利要求1所述的企业知识图谱的构建方法,其特征在于,构建本体模型时,根据预设应用场景的特性选择采用采用自底向上、或者自顶向下、或自底向上与自顶向下两者相结合的构建方式。
3.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。
4.根据权利要求3所述的知识图谱的构建方法,其特征在于,所述关系型数据来源于专业数据库或业务数据库,其中专业数据库的数据源视为完全信任,置信度C0=1,业务数据库的置信度根据信息完善度I和业务数据库的权威性进行计算;所述非关系型数据的数据源是通过爬虫集群由一个种开始在从网络、百科知识、媒体数据中抓取的数据,所述非关系型数据的置信度通过质量评估进行计算。
5.根据权利要求4所述的知识图谱的构建方法,其特征在于,所述业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
6.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
7.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中巧为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
8.根据权利要求1所述的知识图谱的构建方法,其特征在于,还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
9.一种知识图谱的构建系统,包括
数据源收集单元,用于收集预定场景的领域的相关数据源;
实体建模单元,用于根据预定场景的领域的相关数据源建立实体模型;
知识抽取单元,用于对数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式抽取的知识单元并进行存储;
知识融合单元,用于标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,去掉重复的实体、属性以及关系;
实体消歧单元,用于获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工单元,通过知识推理、质量评价对知识图谱进行加工。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011265000.6A CN112434169B (zh) | 2020-11-13 | 2020-11-13 | 一种知识图谱的构建方法及其系统和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011265000.6A CN112434169B (zh) | 2020-11-13 | 2020-11-13 | 一种知识图谱的构建方法及其系统和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434169A true CN112434169A (zh) | 2021-03-02 |
CN112434169B CN112434169B (zh) | 2024-03-15 |
Family
ID=74699954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011265000.6A Active CN112434169B (zh) | 2020-11-13 | 2020-11-13 | 一种知识图谱的构建方法及其系统和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434169B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906826A (zh) * | 2021-03-30 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于多维度的知识图谱的融合方法、装置及计算机设备 |
CN113065000A (zh) * | 2021-03-29 | 2021-07-02 | 泰瑞数创科技(北京)有限公司 | 一种基于地理实体的多源异构数据融合方法 |
CN113065003A (zh) * | 2021-04-22 | 2021-07-02 | 国际关系学院 | 一种基于多指标的知识图谱生成方法 |
CN113095805A (zh) * | 2021-04-08 | 2021-07-09 | 中国工商银行股份有限公司 | 对象识别方法、装置、计算机系统及可读存储介质 |
CN113191540A (zh) * | 2021-04-23 | 2021-07-30 | 南京航空航天大学 | 一种产业链路制造资源的构建方法及装置 |
CN113254671A (zh) * | 2021-06-22 | 2021-08-13 | 平安科技(深圳)有限公司 | 基于query分析的图谱优化方法、装置、设备及介质 |
CN113268602A (zh) * | 2021-03-29 | 2021-08-17 | 江西融思科技有限公司 | 一种组织知识图谱构建方法及装置 |
CN113590836A (zh) * | 2021-07-29 | 2021-11-02 | 上海明略人工智能(集团)有限公司 | 一种构建领域知识图谱方法、系统、电子设备及介质 |
CN113705236A (zh) * | 2021-04-02 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 实体比较方法、装置、设备及计算机可读存储介质 |
CN113742498A (zh) * | 2021-09-24 | 2021-12-03 | 国务院国有资产监督管理委员会研究中心 | 一种知识图谱的构建更新方法 |
CN114330965A (zh) * | 2021-10-15 | 2022-04-12 | 西安交通大学 | 一种基于知识图谱的非api石油专用管qi体系构建方法 |
CN114357198A (zh) * | 2022-03-15 | 2022-04-15 | 支付宝(杭州)信息技术有限公司 | 一种针对多个知识图谱的实体融合方法及装置 |
CN114386418A (zh) * | 2022-01-10 | 2022-04-22 | 新华智云科技有限公司 | 知识图谱中重复实体的去重方法 |
CN114528413A (zh) * | 2022-02-18 | 2022-05-24 | 北京融信数联科技有限公司 | 众包标注支持的知识图谱更新方法、系统和可读存储介质 |
CN115203436A (zh) * | 2022-07-15 | 2022-10-18 | 国网江苏省电力有限公司信息通信分公司 | 一种基于有向图数据融合的电力知识图谱构建方法和装置 |
CN116150407A (zh) * | 2023-04-24 | 2023-05-23 | 中国科学技术大学 | 基于种子集扩展的领域知识图谱构建方法及系统 |
CN116187868A (zh) * | 2023-04-27 | 2023-05-30 | 深圳市迪博企业风险管理技术有限公司 | 一种基于知识图谱的产业链发展质量评价方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108428135A (zh) * | 2017-11-28 | 2018-08-21 | 深圳萨摩耶互联网金融服务有限公司 | 身份验证方法 |
CN109446343A (zh) * | 2018-11-05 | 2019-03-08 | 上海德拓信息技术股份有限公司 | 一种公共安全知识图谱构建的方法 |
US20190259033A1 (en) * | 2015-06-20 | 2019-08-22 | Quantiply Corporation | System and method for using a data genome to identify suspicious financial transactions |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
CN111488433A (zh) * | 2020-06-28 | 2020-08-04 | 南京银行股份有限公司 | 一种适用于银行的提升现场体验感的人工智能交互系统 |
CN111914569A (zh) * | 2020-08-10 | 2020-11-10 | 哈尔滨安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
-
2020
- 2020-11-13 CN CN202011265000.6A patent/CN112434169B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190259033A1 (en) * | 2015-06-20 | 2019-08-22 | Quantiply Corporation | System and method for using a data genome to identify suspicious financial transactions |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108428135A (zh) * | 2017-11-28 | 2018-08-21 | 深圳萨摩耶互联网金融服务有限公司 | 身份验证方法 |
CN109446343A (zh) * | 2018-11-05 | 2019-03-08 | 上海德拓信息技术股份有限公司 | 一种公共安全知识图谱构建的方法 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
CN111488433A (zh) * | 2020-06-28 | 2020-08-04 | 南京银行股份有限公司 | 一种适用于银行的提升现场体验感的人工智能交互系统 |
CN111914569A (zh) * | 2020-08-10 | 2020-11-10 | 哈尔滨安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
YONG YANG等: "Multi-source Heterogeneous Information Fusion of Power Assets Based on Knowledge Graph", pages 1 - 6, Retrieved from the Internet <URL:《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8955005》> * |
谭晓等: "知识图谱研究进展及其前沿主题分析", 《图书与情报》, no. 2, pages 50 - 63 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065000A (zh) * | 2021-03-29 | 2021-07-02 | 泰瑞数创科技(北京)有限公司 | 一种基于地理实体的多源异构数据融合方法 |
CN113268602A (zh) * | 2021-03-29 | 2021-08-17 | 江西融思科技有限公司 | 一种组织知识图谱构建方法及装置 |
CN113065000B (zh) * | 2021-03-29 | 2021-10-22 | 泰瑞数创科技(北京)有限公司 | 一种基于地理实体的多源异构数据融合方法 |
CN112906826A (zh) * | 2021-03-30 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于多维度的知识图谱的融合方法、装置及计算机设备 |
CN113705236B (zh) * | 2021-04-02 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 实体比较方法、装置、设备及计算机可读存储介质 |
CN113705236A (zh) * | 2021-04-02 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 实体比较方法、装置、设备及计算机可读存储介质 |
CN113095805A (zh) * | 2021-04-08 | 2021-07-09 | 中国工商银行股份有限公司 | 对象识别方法、装置、计算机系统及可读存储介质 |
CN113065003A (zh) * | 2021-04-22 | 2021-07-02 | 国际关系学院 | 一种基于多指标的知识图谱生成方法 |
CN113191540A (zh) * | 2021-04-23 | 2021-07-30 | 南京航空航天大学 | 一种产业链路制造资源的构建方法及装置 |
CN113254671A (zh) * | 2021-06-22 | 2021-08-13 | 平安科技(深圳)有限公司 | 基于query分析的图谱优化方法、装置、设备及介质 |
CN113590836A (zh) * | 2021-07-29 | 2021-11-02 | 上海明略人工智能(集团)有限公司 | 一种构建领域知识图谱方法、系统、电子设备及介质 |
CN113742498A (zh) * | 2021-09-24 | 2021-12-03 | 国务院国有资产监督管理委员会研究中心 | 一种知识图谱的构建更新方法 |
CN113742498B (zh) * | 2021-09-24 | 2024-04-09 | 国务院国有资产监督管理委员会研究中心 | 一种知识图谱的构建更新方法 |
CN114330965A (zh) * | 2021-10-15 | 2022-04-12 | 西安交通大学 | 一种基于知识图谱的非api石油专用管qi体系构建方法 |
CN114386418A (zh) * | 2022-01-10 | 2022-04-22 | 新华智云科技有限公司 | 知识图谱中重复实体的去重方法 |
CN114528413A (zh) * | 2022-02-18 | 2022-05-24 | 北京融信数联科技有限公司 | 众包标注支持的知识图谱更新方法、系统和可读存储介质 |
CN114528413B (zh) * | 2022-02-18 | 2022-08-12 | 北京融信数联科技有限公司 | 众包标注支持的知识图谱更新方法、系统和可读存储介质 |
CN114357198A (zh) * | 2022-03-15 | 2022-04-15 | 支付宝(杭州)信息技术有限公司 | 一种针对多个知识图谱的实体融合方法及装置 |
CN114357198B (zh) * | 2022-03-15 | 2022-06-28 | 支付宝(杭州)信息技术有限公司 | 一种针对多个知识图谱的实体融合方法及装置 |
CN115203436A (zh) * | 2022-07-15 | 2022-10-18 | 国网江苏省电力有限公司信息通信分公司 | 一种基于有向图数据融合的电力知识图谱构建方法和装置 |
CN115203436B (zh) * | 2022-07-15 | 2023-12-15 | 国网江苏省电力有限公司信息通信分公司 | 一种基于有向图数据融合的电力知识图谱构建方法和装置 |
CN116150407A (zh) * | 2023-04-24 | 2023-05-23 | 中国科学技术大学 | 基于种子集扩展的领域知识图谱构建方法及系统 |
CN116187868A (zh) * | 2023-04-27 | 2023-05-30 | 深圳市迪博企业风险管理技术有限公司 | 一种基于知识图谱的产业链发展质量评价方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112434169B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
JP7468929B2 (ja) | 地理知識取得方法 | |
US7246128B2 (en) | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view | |
CN111488465A (zh) | 一种知识图谱构建方法及相关装置 | |
CN106021364A (zh) | 图片搜索相关性预测模型的建立、图片搜索方法和装置 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN104699786A (zh) | 一种语义智能搜索的通信网络投诉系统 | |
CN111274332A (zh) | 一种基于知识图谱的专利智能检索方法及系统 | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN117151659B (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 | |
CN110674313B (zh) | 一种基于用户日志动态更新知识图谱的方法 | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN116450850A (zh) | 一种基于序列编码器的时空知识图谱补全方法 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN114153965A (zh) | 一种结合内容和图谱的舆情事件推荐方法、系统及终端 | |
CN103136221B (zh) | 一种生成需求模板的方法、需求识别的方法及其装置 | |
Ma et al. | Matching descriptions to spatial entities using a Siamese hierarchical attention network | |
CN105335499A (zh) | 一种基于分布-收敛模型的文献聚类方法 | |
Wang et al. | Understanding the spatial dimension of natural language by measuring the spatial semantic similarity of words through a scalable geospatial context window | |
Vijaya et al. | LionRank: lion algorithm-based metasearch engines for re-ranking of webpages | |
Goyal et al. | A Review on Different Content Based Image Retrieval Techniques Using High Level Semantic Feature | |
CN114996490A (zh) | 电影推荐方法、系统、存储介质及设备 | |
Wang et al. | A knowledge graph completion method based on fusing association information | |
Dai et al. | Intelligent audit question answering system based on knowledge graph and semantic similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231025 Address after: 266000 floor 5, block B, building 1, No. 151, huizhiqiao Road, high tech Zone, Qingdao, Shandong Applicant after: Haichuanghui Technology Entrepreneurship Development Co.,Ltd. Address before: 100022 unit 02, 10 / F, building 108, building a 108, building B 108, building 110, building 112, building 116, building 118, building a 118, building B 118 Applicant before: Beijing Chuangye Guangrong Information Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |