CN112434169A - 一种知识图谱的构建方法及其系统和计算机设备 - Google Patents

一种知识图谱的构建方法及其系统和计算机设备 Download PDF

Info

Publication number
CN112434169A
CN112434169A CN202011265000.6A CN202011265000A CN112434169A CN 112434169 A CN112434169 A CN 112434169A CN 202011265000 A CN202011265000 A CN 202011265000A CN 112434169 A CN112434169 A CN 112434169A
Authority
CN
China
Prior art keywords
entity
database
knowledge
entities
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011265000.6A
Other languages
English (en)
Other versions
CN112434169B (zh
Inventor
柴源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haichuanghui Technology Entrepreneurship Development Co ltd
Original Assignee
Beijing Chuangye Guangrong Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chuangye Guangrong Information Technology Co ltd filed Critical Beijing Chuangye Guangrong Information Technology Co ltd
Priority to CN202011265000.6A priority Critical patent/CN112434169B/zh
Publication of CN112434169A publication Critical patent/CN112434169A/zh
Application granted granted Critical
Publication of CN112434169B publication Critical patent/CN112434169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识图谱的构建方法,包括构建本体模型,根据预设应用场景所在的领域相关的数据源及业务特征构建本体模型;知识抽取,知识融合,去掉重复的实体、属性以及关系;实体消歧,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;知识加工,对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。本发明还公开了一种知识图谱的构建系统及计算机设备。本发明通过在知识融合和实体消歧步骤中,去除重复具有歧义、多义等实体,构建了高质量的知识图谱。

Description

一种知识图谱的构建方法及其系统和计算机设备
技术领域
本发明涉及计算机软件技术领域,具体涉及一种企业知识图谱的构建方法及其系统和应用。
背景技术
知识图谱(Knowledge graph)的研究最早可追溯到1977年,在第五届国际人工智能会议上,美国计算机科学家Feigenbaum B.A.首次提出知识工程的概念。知识工程即针对用户提出的问题用知识库中已有的知识来求解的系统,其中最经典的是专家系统。2012年,谷歌(Google)发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。该项目通过对客观真实世界中各种实体及其关系的描绘,形成一张巨大的语义结构网络图,使各种庞杂无关的知识联系起来,从而达到便捷地获取知识的目的。
知识图谱是将大量收集的数据整理成机器能处理的知识库,并实现可视化的展示。知识图谱本质上是一种大规模的语义网络,其主要目的是对真实世界里实体或概念之间的关联关系进行描述。知识图谱一般包含逻辑结构和技术(体系)构架。知识图谱构建的一般步骤包括数据采集、知识抽取、知识融合、知识加工以及知识更新等步骤。
目前公开的指示图谱的构建方法中,对于数据源并没有相应的处理,使得抽取的知识单元包含了太多噪音或者具有歧义的实体,导致后期的实体消歧步骤不能完全消除实体的噪音和歧义,不能保证构建的知识图谱的质量。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种知识图谱的构建方法,通过在知识融合和实体消歧步骤中,去除重复具有歧义、多义等实体,构建高质量的知识图谱。
为解决上述问题,本发明所采用的技术方案如下:
一种知识图谱的构建方法,包括
构建本体模型,根据预设应用场景所在的领域相关的数据源及业务特征构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工,对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
作为进一步优选的方案,本发明在构建本体模型时,根据预设应用场景的特性选择采用采用自底向上、或者自顶向下、或自底向上与自顶向下两者相结合的构建方式。
作为进一步优选的方案,本发明所述的知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。
作为进一步优选的方案,本发明所述的关系型数据来源于专业数据库或业务数据库,其中专业数据库的数据源视为完全信任,置信度C0=1,业务数据库的置信度根据信息完善度I和业务数据库的权威性进行计算;所述非关系型数据的数据源是通过爬虫集群由一个种开始在从网络、百科知识、媒体数据中抓取的数据,所述非关系型数据的置信度通过质量评估进行计算。
作为进一步优选的方案,本发明所述的业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
Figure BDA0002775795150000031
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
获取数据库采集数据的方式,根据每个数据库采集数据的方式获取数据来源的采集参数μ1,且
Figure BDA0002775795150000041
获取数据库的所有历史浏览数据,计算所有历史数据每天浏览量的平均值N0,抽取历史数据中某一连续时间段t的浏览数据,计算该时间段浏览量的平均值N,获得使用程度μ2
Figure BDA0002775795150000042
获取数据库的用户评价信息,根据所获取的评价信息,得到使用效果的评价指数,μ3,且
Figure BDA0002775795150000043
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
Figure BDA0002775795150000044
其中
Figure BDA0002775795150000045
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中σ为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
作为进一步优选的方案,本发明所述的知识图谱的构建方法还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
进一步的,本发明还提供了一种知识图谱的构建系统,包括
数据源收集单元,用于收集预定场景的领域的相关数据源;
实体建模单元,用于根据预定场景的领域的相关数据源建立实体模型;
知识抽取单元,用于对数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式抽取的知识单元并进行存储;
知识融合单元,用于标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,去掉重复的实体、属性以及关系;
实体消歧单元,用于获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工单元,通过知识推理、质量评价对知识图谱进行加工。
进一步的,本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本发明所述方法的步骤。
进一步的,本发明还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述的方法的步骤。
相比现有技术,本发明的有益效果在于:
1.本发明所述的知识图谱的构建方法通过在知识融合和实体消歧步骤中,去除重复具有歧义、多义等实体,构建高质量的知识图谱。
2.进一步的,本发明所述的知识图谱的构建方法还通过对数据源的置信度进行计算,根据不同的数据源设置不同的计算方式,提高了数据源的置信度,进一步达到提高知识图谱质量的目的,
3.进一步的本发明所述的知识图谱的构建方法还设置了二次实体消歧,主要是对出去掉的实体进行筛选,避免筛除与目标实体存在关系的实体,保证了知识图谱的完整性。
下面结合附图和具体实施方式对本发明作进一步详细说明。
附图说明
图1为本发明所述的知识图谱的构建的流程图。
图2为本发明所述的知识图谱的构建系统结构图。
具体实施方式
实施例1
如图1所示,一种知识图谱的构建方法,应用场景是面向投资人的企业知识图谱,包括
构建本体模型,根据企业所在的领域相关的数据源及业务特征构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
具体的,由于企业的特性,实施例在本发明在构建本体模型时,根据采用自底向上的构建方式建模。
具体的,实施例1所述的知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。具体的,提取的知识单元包括该企业工商信息、上、下游企业、竞品企业、关联企业、投资信息、融资信息以及资产信息等。
具体的,实施例所述的关系型数据来源于专业数据库或业务数据库,其中专业数据库包括工商登记信息,数据源视为完全信任,置信度C0=1;业务数据库包括企业名录、黄页等数据,这部分数据源的置信度根据信息完善度I和业务数据库的权威性进行计算;所述的业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
Figure BDA0002775795150000081
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
实施例1对于非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
获取数据库采集数据的方式,根据每个数据库采集数据的方式获取数据来源的采集参数μ1,且
Figure BDA0002775795150000091
获取数据库的所有历史浏览数据,计算所有历史数据每天浏览量的平均值N0,抽取历史数据中某一连续时间段t的浏览数据,计算该时间段浏览量的平均值N,获得使用程度μ2
Figure BDA0002775795150000092
获取数据库的用户评价信息,根据所获取的评价信息,得到使用效果的评价指数,μ3,且
Figure BDA0002775795150000093
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
Figure BDA0002775795150000094
其中
Figure BDA0002775795150000095
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中σ为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
进一步的,在上述实施例1的基础上,本发明所述的知识图谱的构建方法还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
实施例2
一种昆虫知识图谱的构建方法,包括
构建本体模型,根据生物领域相关的数据源及昆虫特性构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
具体的,由于企业的特性,实施例在本发明在构建本体模型时,根据采用自底向上的构建方式建模。
具体的,实施例1所述的知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。
具体的,实施例所述的关系型数据来源于专业数据库或业务数据库,其中专业数据库包括农业部信息网数据库、各国的昆虫博物馆数据库,数据源视为完全信任,置信度C0=1;
业务数据库包括昆虫百科全书、中国昆虫网等,这部分数据源的置信度根据信息完善度I和业务数据库的权威性进行计算;所述的业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
Figure BDA0002775795150000121
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
实施例2对于非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
获取数据库采集数据的方式,根据每个数据库采集数据的方式获取数据来源的采集参数μ1,且
Figure BDA0002775795150000122
获取数据库的所有历史浏览数据,计算所有历史数据每天浏览量的平均值N0,抽取历史数据中某一连续时间段t的浏览数据,计算该时间段浏览量的平均值N,获得使用程度μ2
Figure BDA0002775795150000123
获取数据库的用户评价信息,根据所获取的评价信息,得到使用效果的评价指数,μ3,且
Figure BDA0002775795150000124
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
Figure BDA0002775795150000125
其中
Figure BDA0002775795150000126
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
作为进一步优选的方案,本发明所述的实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中σ为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
进一步的,在上述实施例2的基础上,本发明所述的知识图谱的构建方法还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
实施例3
一种知识图谱的构建系统,包括
数据源收集单元,用于收集预定场景的领域的相关数据源;
实体建模单元,用于根据预定场景的领域的相关数据源建立实体模型;
知识抽取单元,用于对数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式抽取的知识单元并进行存储;
知识融合单元,用于标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,去掉重复的实体、属性以及关系;
实体消歧单元,用于获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工单元,通过知识推理、质量评价对知识图谱进行加工。
进一步的,本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本发明所述方法的步骤。
进一步的,本发明还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述的方法的步骤。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.一种知识图谱的构建方法,其特征在于,包括
构建本体模型,根据预设应用场景所在的领域相关的数据源及业务特征构建本体模型;
知识抽取,对当前数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式对抽取的知识单元进行存储;
知识融合,通过实体链接标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,同时去掉重复的实体、属性以及关系;
实体消歧,获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工,对完成知识融合并实体消歧后的知识图谱进行加工,构建企业的知识图谱。
2.根据权利要求1所述的企业知识图谱的构建方法,其特征在于,构建本体模型时,根据预设应用场景的特性选择采用采用自底向上、或者自顶向下、或自底向上与自顶向下两者相结合的构建方式。
3.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述知识抽取的数据源包括关系型数据以及非关系型数,知识抽取内容包括目标实体、实体属性和实体关系,根据不同的数据来源以及抽取方式标识置信度。
4.根据权利要求3所述的知识图谱的构建方法,其特征在于,所述关系型数据来源于专业数据库或业务数据库,其中专业数据库的数据源视为完全信任,置信度C0=1,业务数据库的置信度根据信息完善度I和业务数据库的权威性进行计算;所述非关系型数据的数据源是通过爬虫集群由一个种开始在从网络、百科知识、媒体数据中抓取的数据,所述非关系型数据的置信度通过质量评估进行计算。
5.根据权利要求4所述的知识图谱的构建方法,其特征在于,所述业务数据库的置信度C主要由信息完善程度I决定,数据库的权威性或公信力会影响信息的信任度,权威性或公信力的影响用影响参数γ表示,赋予影响参数权重α;
其中,I在(0,1)之间取值,由完善度决定,即业务数据库信息完善度为100%时,I=1,若信息完善度为50%时,I=0.5;α的取值满足I+α=1;
影响参数γ与数据库创建单位的公信力相关,当创建者具有完全公信力时,γ=1,
引入一个校正因子ω,在具有完全公信力的情况下ω=0,当数据库创建者具有不完全公信力时,通过数据库的使用者的评价信息对ω赋值,ω为正面评价数量在总评价量中占比,即
Figure FDA0002775795140000021
根据上述设定,得到置信度的计算公式为:
C=I*C0+(α-ω)*γ
当计算得到的置信度低于50%,去除从对应数据库中获得的实体信息。
6.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述非关系型数据的置信度C通过对数据库的质量评估进行计算,根据数据的采集方式、数据库的使用程度以及使用效果的评价对非关系型数据的数据库进行质量评估,包括如下步骤:
获取数据库采集数据的方式,根据每个数据库采集数据的方式获取数据来源的采集参数μ1,且
Figure FDA0002775795140000031
获取数据库的所有历史浏览数据,计算所有历史数据每天浏览量的平均值N0,抽取历史数据中某一连续时间段t的浏览数据,计算该时间段浏览量的平均值N,获得使用程度μ2
Figure FDA0002775795140000032
获取数据库的用户评价信息,根据所获取的评价信息,得到使用效果的评价指数,μ3,且
Figure FDA0002775795140000033
根据采集方式、数据库的使用程度以及使用效果的评价建立评估指数P,
Figure FDA0002775795140000034
其中
Figure FDA0002775795140000035
当P=1时,视为完全置信度;当0.5≤P<1视为具有较高置信度,对应数据库中获得的实体信息作抽取后存入知识库;当P<0.5时,视为置信度低,去除从对应数据库中获得的实体信息。
7.根据权利要求1所述的知识图谱的构建方法,其特征在于,所述实体消歧过程中,构建词向量模型计算词语的相似程度,将语义信息与预设应用场景所述领域信息进行必要的联系作用,取中心实体周围距离最近的N个实体构建实体关系图谱,如果待计算的两个实体都不在这个图谱中则将相似度设为0,反之,则用随机游走算法计算相似度:
(1)给定初始化矩阵X,并令Y=X;
(2)根据实体间的转移概率,生成矩阵M;
(3)计算C=σ·M·Y+(1-σ)X;
(4)令Y=C;
重复上述(3)和(4),直到C达到稳定状态或者迭代次数超过的第一预设阈值;
其中巧为相似度权重,取值范围为(0-1),
计算的目标关键词相似度可判断出值最大的是目标所选实体。
8.根据权利要求1所述的知识图谱的构建方法,其特征在于,还包括
多次实体消歧,在实体消歧去除的文本信息中与在备选实体所在的信息库中提取有限的相同数量的关键词,针对所提取的关键词计算相似度,抽取文本信息中相似度高于第二预设阈值的实体,其中第二预设阈值小于第一预设阈值,对抽取出来的这部分实体采用随机游走算法与三角函数余弦值结合的方式再次进行消歧或者与备选实体进行人工匹配,提取相似度高于第一预设阈值的实体对知识图谱进行更新。
9.一种知识图谱的构建系统,包括
数据源收集单元,用于收集预定场景的领域的相关数据源;
实体建模单元,用于根据预定场景的领域的相关数据源建立实体模型;
知识抽取单元,用于对数据源的实体进行命名实体识别,得到多个命名实体;对多个命名实体进行连接,得到多个实体关系;通过图数据库、关系型数据库以及文档数据库相结合的方式抽取的知识单元并进行存储;
知识融合单元,用于标识相似实体,关联相同实体的不同表达形式;并对相同实体的不同属性或者相同实体相同属性不同的属性值进行合并,去掉重复的实体、属性以及关系;
实体消歧单元,用于获取所有未被进行消歧处理的指代实体项的目标对象,利用数据库查询语句搜索到具有相同含义词语的链接页面,在未进行实体消歧的所在文本信息中与在备选实体所在的信息库中提取相同数量的关键词,针对所提取的关键词计算相似度,去除文本信息中相似度低于第一预设阈值的实体;
知识加工单元,通过知识推理、质量评价对知识图谱进行加工。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任意一项所述方法的步骤。
CN202011265000.6A 2020-11-13 2020-11-13 一种知识图谱的构建方法及其系统和计算机设备 Active CN112434169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011265000.6A CN112434169B (zh) 2020-11-13 2020-11-13 一种知识图谱的构建方法及其系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011265000.6A CN112434169B (zh) 2020-11-13 2020-11-13 一种知识图谱的构建方法及其系统和计算机设备

Publications (2)

Publication Number Publication Date
CN112434169A true CN112434169A (zh) 2021-03-02
CN112434169B CN112434169B (zh) 2024-03-15

Family

ID=74699954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011265000.6A Active CN112434169B (zh) 2020-11-13 2020-11-13 一种知识图谱的构建方法及其系统和计算机设备

Country Status (1)

Country Link
CN (1) CN112434169B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906826A (zh) * 2021-03-30 2021-06-04 平安科技(深圳)有限公司 基于多维度的知识图谱的融合方法、装置及计算机设备
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法
CN113065003A (zh) * 2021-04-22 2021-07-02 国际关系学院 一种基于多指标的知识图谱生成方法
CN113095805A (zh) * 2021-04-08 2021-07-09 中国工商银行股份有限公司 对象识别方法、装置、计算机系统及可读存储介质
CN113191540A (zh) * 2021-04-23 2021-07-30 南京航空航天大学 一种产业链路制造资源的构建方法及装置
CN113254671A (zh) * 2021-06-22 2021-08-13 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN113268602A (zh) * 2021-03-29 2021-08-17 江西融思科技有限公司 一种组织知识图谱构建方法及装置
CN113590836A (zh) * 2021-07-29 2021-11-02 上海明略人工智能(集团)有限公司 一种构建领域知识图谱方法、系统、电子设备及介质
CN113705236A (zh) * 2021-04-02 2021-11-26 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质
CN113742498A (zh) * 2021-09-24 2021-12-03 国务院国有资产监督管理委员会研究中心 一种知识图谱的构建更新方法
CN114330965A (zh) * 2021-10-15 2022-04-12 西安交通大学 一种基于知识图谱的非api石油专用管qi体系构建方法
CN114357198A (zh) * 2022-03-15 2022-04-15 支付宝(杭州)信息技术有限公司 一种针对多个知识图谱的实体融合方法及装置
CN114386418A (zh) * 2022-01-10 2022-04-22 新华智云科技有限公司 知识图谱中重复实体的去重方法
CN114528413A (zh) * 2022-02-18 2022-05-24 北京融信数联科技有限公司 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN115203436A (zh) * 2022-07-15 2022-10-18 国网江苏省电力有限公司信息通信分公司 一种基于有向图数据融合的电力知识图谱构建方法和装置
CN116150407A (zh) * 2023-04-24 2023-05-23 中国科学技术大学 基于种子集扩展的领域知识图谱构建方法及系统
CN116187868A (zh) * 2023-04-27 2023-05-30 深圳市迪博企业风险管理技术有限公司 一种基于知识图谱的产业链发展质量评价方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108428135A (zh) * 2017-11-28 2018-08-21 深圳萨摩耶互联网金融服务有限公司 身份验证方法
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
US20190259033A1 (en) * 2015-06-20 2019-08-22 Quantiply Corporation System and method for using a data genome to identify suspicious financial transactions
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN111488433A (zh) * 2020-06-28 2020-08-04 南京银行股份有限公司 一种适用于银行的提升现场体验感的人工智能交互系统
CN111914569A (zh) * 2020-08-10 2020-11-10 哈尔滨安天科技集团股份有限公司 基于融合图谱的预测方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190259033A1 (en) * 2015-06-20 2019-08-22 Quantiply Corporation System and method for using a data genome to identify suspicious financial transactions
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108428135A (zh) * 2017-11-28 2018-08-21 深圳萨摩耶互联网金融服务有限公司 身份验证方法
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN111488433A (zh) * 2020-06-28 2020-08-04 南京银行股份有限公司 一种适用于银行的提升现场体验感的人工智能交互系统
CN111914569A (zh) * 2020-08-10 2020-11-10 哈尔滨安天科技集团股份有限公司 基于融合图谱的预测方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONG YANG等: "Multi-source Heterogeneous Information Fusion of Power Assets Based on Knowledge Graph", pages 1 - 6, Retrieved from the Internet <URL:《网页在线公开:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8955005》> *
谭晓等: "知识图谱研究进展及其前沿主题分析", 《图书与情报》, no. 2, pages 50 - 63 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法
CN113268602A (zh) * 2021-03-29 2021-08-17 江西融思科技有限公司 一种组织知识图谱构建方法及装置
CN113065000B (zh) * 2021-03-29 2021-10-22 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法
CN112906826A (zh) * 2021-03-30 2021-06-04 平安科技(深圳)有限公司 基于多维度的知识图谱的融合方法、装置及计算机设备
CN113705236B (zh) * 2021-04-02 2024-06-11 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质
CN113705236A (zh) * 2021-04-02 2021-11-26 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质
CN113095805A (zh) * 2021-04-08 2021-07-09 中国工商银行股份有限公司 对象识别方法、装置、计算机系统及可读存储介质
CN113065003A (zh) * 2021-04-22 2021-07-02 国际关系学院 一种基于多指标的知识图谱生成方法
CN113191540A (zh) * 2021-04-23 2021-07-30 南京航空航天大学 一种产业链路制造资源的构建方法及装置
CN113254671A (zh) * 2021-06-22 2021-08-13 平安科技(深圳)有限公司 基于query分析的图谱优化方法、装置、设备及介质
CN113590836A (zh) * 2021-07-29 2021-11-02 上海明略人工智能(集团)有限公司 一种构建领域知识图谱方法、系统、电子设备及介质
CN113742498A (zh) * 2021-09-24 2021-12-03 国务院国有资产监督管理委员会研究中心 一种知识图谱的构建更新方法
CN113742498B (zh) * 2021-09-24 2024-04-09 国务院国有资产监督管理委员会研究中心 一种知识图谱的构建更新方法
CN114330965A (zh) * 2021-10-15 2022-04-12 西安交通大学 一种基于知识图谱的非api石油专用管qi体系构建方法
CN114386418A (zh) * 2022-01-10 2022-04-22 新华智云科技有限公司 知识图谱中重复实体的去重方法
CN114528413A (zh) * 2022-02-18 2022-05-24 北京融信数联科技有限公司 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN114528413B (zh) * 2022-02-18 2022-08-12 北京融信数联科技有限公司 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN114357198A (zh) * 2022-03-15 2022-04-15 支付宝(杭州)信息技术有限公司 一种针对多个知识图谱的实体融合方法及装置
CN114357198B (zh) * 2022-03-15 2022-06-28 支付宝(杭州)信息技术有限公司 一种针对多个知识图谱的实体融合方法及装置
CN115203436A (zh) * 2022-07-15 2022-10-18 国网江苏省电力有限公司信息通信分公司 一种基于有向图数据融合的电力知识图谱构建方法和装置
CN115203436B (zh) * 2022-07-15 2023-12-15 国网江苏省电力有限公司信息通信分公司 一种基于有向图数据融合的电力知识图谱构建方法和装置
CN116150407A (zh) * 2023-04-24 2023-05-23 中国科学技术大学 基于种子集扩展的领域知识图谱构建方法及系统
CN116187868A (zh) * 2023-04-27 2023-05-30 深圳市迪博企业风险管理技术有限公司 一种基于知识图谱的产业链发展质量评价方法及装置

Also Published As

Publication number Publication date
CN112434169B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
JP7468929B2 (ja) 地理知識取得方法
US7246128B2 (en) Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
CN111488465A (zh) 一种知识图谱构建方法及相关装置
CN106021364A (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN107291895B (zh) 一种快速的层次化文档查询方法
CN104699786A (zh) 一种语义智能搜索的通信网络投诉系统
CN111274332A (zh) 一种基于知识图谱的专利智能检索方法及系统
CN113380360B (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN110674313B (zh) 一种基于用户日志动态更新知识图谱的方法
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN116450850A (zh) 一种基于序列编码器的时空知识图谱补全方法
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN114153965A (zh) 一种结合内容和图谱的舆情事件推荐方法、系统及终端
CN103136221B (zh) 一种生成需求模板的方法、需求识别的方法及其装置
Ma et al. Matching descriptions to spatial entities using a Siamese hierarchical attention network
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法
Wang et al. Understanding the spatial dimension of natural language by measuring the spatial semantic similarity of words through a scalable geospatial context window
Vijaya et al. LionRank: lion algorithm-based metasearch engines for re-ranking of webpages
Goyal et al. A Review on Different Content Based Image Retrieval Techniques Using High Level Semantic Feature
CN114996490A (zh) 电影推荐方法、系统、存储介质及设备
Wang et al. A knowledge graph completion method based on fusing association information
Dai et al. Intelligent audit question answering system based on knowledge graph and semantic similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231025

Address after: 266000 floor 5, block B, building 1, No. 151, huizhiqiao Road, high tech Zone, Qingdao, Shandong

Applicant after: Haichuanghui Technology Entrepreneurship Development Co.,Ltd.

Address before: 100022 unit 02, 10 / F, building 108, building a 108, building B 108, building 110, building 112, building 116, building 118, building a 118, building B 118

Applicant before: Beijing Chuangye Guangrong Information Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant