CN111177399B - 一种知识图谱构建方法和装置 - Google Patents

一种知识图谱构建方法和装置 Download PDF

Info

Publication number
CN111177399B
CN111177399B CN201911229010.1A CN201911229010A CN111177399B CN 111177399 B CN111177399 B CN 111177399B CN 201911229010 A CN201911229010 A CN 201911229010A CN 111177399 B CN111177399 B CN 111177399B
Authority
CN
China
Prior art keywords
entity
knowledge
association
entities
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911229010.1A
Other languages
English (en)
Other versions
CN111177399A (zh
Inventor
刘鑫
庄浩
张继勇
陈浩翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huarui Xinzhi Baoding Technology Co ltd
Huarui Xinzhi Technology Beijing Co ltd
Original Assignee
Huarui Xinzhi Baoding Technology Co ltd
Huarui Xinzhi Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huarui Xinzhi Baoding Technology Co ltd, Huarui Xinzhi Technology Beijing Co ltd filed Critical Huarui Xinzhi Baoding Technology Co ltd
Priority to CN201911229010.1A priority Critical patent/CN111177399B/zh
Publication of CN111177399A publication Critical patent/CN111177399A/zh
Application granted granted Critical
Publication of CN111177399B publication Critical patent/CN111177399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识图谱构建方法和装置,方法包括:从电力数据中,获取第一电力语料;利用预先训练好的语义分析模型从第一电力语料中提取多个实体、多个领域本体和多个关联关系,关联关系包括:多个实体之间的关联关系、多个领域本体之间的关联关系和实体与领域本体之间的关联关系中的一个或多个;对于提出的各所述实体,根据该实体与其它实体的关联关系,以及根据该实体与各领域本体的关联关系,得到该实体的第一知识图谱;对多个实体的第一知识图谱进行合并和拼接,得到第二知识图谱;在第二图谱中实体、领域本体以及关联关系构成展示路径,且基于第二知识图谱的展示按照展示路径进行展示。本申请能够提高从业人员的用户体验。

Description

一种知识图谱构建方法和装置
技术领域
本申请涉及数据传输技术领域,尤其涉及一种知识图谱构建方法和装置。
背景技术
随着电力体制改革的持续推进以及全社会对电力的关注度的提高,电力行业难度也在快速增长,对于电力人才培养也带来了极大的压力。
电力专业领域从业人员通过互联网搜索引擎按个人需求进行自定义寻找和可视化查找,以学习相应的专业知识和整理相关资料。
然而,电力行业的知识结构复杂,互联网搜索引擎通常只是展现所搜索词汇的相关内容链接,无法快速体现某些专业领域的其他知识维度,无法满足电力专业领域从业人员的学习与查询需求的内容,从而降低了电力专业领域从业人员的用户体验。
发明内容
为了解决上述问题,本申请提出了一种知识图谱构建方法和装置,能够提高电力专业领域从业人员的用户体验。
第一方面,本申请实施例提出了一种知识图谱构建方法,包括:
从电力数据中,获取第一电力语料;
利用预先训练好的语义分析模型从所述第一电力语料中提取多个实体、多个领域本体和多个关联关系;所述关联关系包括:所述多个实体之间的关联关系、所述多个领域本体之间的关联关系和所述实体与所述领域本体之间的关联关系中的一个或多个;对于提出的各所述实体,根据该实体与其它实体的关联关系,以及根据该实体与各领域本体的关联关系,得到该实体的第一知识图谱;
对多个所述实体的第一知识图谱进行合并和拼接,得到第二知识图谱;其中,在所述第二图谱中,所述实体、领域本体以及所述关联关系构成展示路径,以便于基于所述第二知识图谱的展示按照所述展示路径进行展示。
在一个示例中,分别确定各所述实体对应的第一关键词,各所述领域本体对应的第二关键词;
根据各所述第一关键词和各所述第二关键词,生成所述第二知识图谱的索引信息。
在一个示例中,利用所述语义分析模型对各所述第一关键词和各所述第二关键词进行上下位语义分析;
根据所述上下位语义分析结果,创建上下位语义网络,所述上下位语义网络包括各所述第一关键词和各所述第二关键词之间的上下位关系数据;
根据所述上下位语义网络,添加新的关键词,以完善所述上下位关系数据。
在一个示例中,根据所述索引信息和所述上下位语义网络,从互联网中获取第二电力语料;
利用所述语义分析模型从所述第二电力语料中,提取多个待检测实体、多个待检测领域本体和多个待检测关联关系;
通过比较所述待检测实体与所述实体的属性值、所述待检测关联关系与所述关联关系,分别确定各所述待检测实体是否为所述第二知识图谱中所述实体;
将与所述实体相同的待检测实体与相应的实体合并;
针对与所述实体不同的待检测实体创建第三知识图谱,所述第三知识图谱结构与所述第一知识图谱相同;
对所述第三知识图谱和所述第二知识图谱进行拼接和合并。
在一个示例中,确定与所述实体不同的待检测实体的第三关键词;
利用所述语义分析模型对所述第三关键词进行语义分析,并根据所述上下位关系数据和所述第三关键词的语义信息,将所述第三关键词添加到所述上下位语义网中相应的位置,并更新所述索引信息。
在一个示例中,接收来自于用户终端的检索信息;
利用所述语义分析模型对所述检索信息进行语义识别,并根据所述索引信息,确定至少一个所述第二知识图谱中的节点;
确定存在一个所述第二知识图谱中的节点时,返回所述节点的预设展示路径;
确定存在多个所述第二知识图谱中的节点时,在所述第二知识图谱中,确定各所述节点间的所有展示路径,并返回各所述展示路径。
在一个示例中,所述实体包括:多个属性,每一个所述属性对应至少一个属性值;
检测各所述属性是否存在多个属性值;
在所述属性存在多个属性值时,将出现次数最多的所述属性值作为所述第一知识图谱中相应实体的属性值。
第二方面,本申请实施例提供了一种知识图谱构建装置,包括:获取模块、数据处理模块和图谱绘制模块;
所述获取模块用于从电力数据中,获取第一电力语料;
所述数据处理模块用于利用预先训练好的语义分析模型从所述第一电力语料中提取多个实体、多个领域本体和多个关联关系;所述关联关系包括:所述多个实体之间的关联关系、所述多个领域本体之间的关联关系和所述实体与所述领域本体之间的关联关系中的一个或多个,所述实体为电力专业的知识元,领域本体是所述知识元对应的最近领域;
所述图谱绘制模块用于根据多个所述实体和预设的多个领域本体,并通过相应关联关系,得到相应所述实体的第一知识图谱;对多个所述实体的第一知识图谱进行合并和拼接,得到第二知识图谱;其中,在所述第二图谱中,所述实体、领域本体以及所述关联关系构成展示路径,以便于基于所述第二知识图谱的展示按照所述展示路径进行展示。
在一个示例中,所述装置还包括:索引信息生成模块;
所述索引信息生成模块用于分别确定各所述实体对应的第一关键词,各所述领域本体对应的第二关键词;根据各所述第一关键词和各所述第二关键词,生成所述第二知识图谱的索引信息;
所述数据处理模块还用于利用所述语义分析模型对各所述第一关键词和各所述第二关键词进行上下位语义分析;根据所述上下位语义分析结果,创建上下位语义网络,所述上下位语义网络包括各所述第一关键词和各所述第二关键词之间的上下位关系数据;根据所述上下位语义网络,添加新的关键词,以完善所述上下位关系数据。
在一个示例中,所述获取模块还用于根据所述索引信息和所述上下位语义网络,从网络中获取第二电力语料;
所述数据处理模块还用于利用所述语义分析模型从所述第二电力语料中,提取多个待检测实体、多个待检测领域本体和多个待检测关联关系;通过比较所述待检测实体与所述实体的属性值、所述待检测关联关系与所述关联关系,分别确定各所述待检测实体是否为所述第二知识图谱中所述实体;将与所述实体相同的待检测实体与相应的实体合并;
所述图谱绘制模块还用于针对与所述实体不同的待检测实体创建第三知识图谱,所述第三知识图谱结构与所述第一知识图谱相同;对所述第三知识图谱和所述第二知识图谱进行拼接和合并。
在本申请实施例中,以电力专业书为基础建立知识图谱,其中,实体对应专业书中的知识点,领域本体为知识点所属的学科或技术领域,关联关系为知识点和知识点、知识点和技术领域以及技术领域与技术领域之间的联系。通过上述方式得到的知识图谱使得业人员不再局限于从自己现有的专业书中获取到的专业知识,而是从整个电力领域的各个专业书中获取知识,因而极大提高了电力专业领域从业人员的用户体验。同时,基于知识图谱的展示不再以单步推理为基础,而是根据图谱中的展示路径实现多维度展示。其中,图谱中的展示路径由知识点、知识点所属的技术领域以及关联关系组成,因此按照上述展示路径进行展示时,用户不仅能看到查询到的知识点,还能看到与知识点相关的其他知识点和相关背景技术,使得用户能够对知识点进行更深入的理解,从而提高电力专业领域从业人员的用户体验。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种知识图谱构建方法的流程示意图;
图2为本申请实施例提供的一种知识图谱构建装置的结构示意图。
具体实施方式
为了更清楚的阐释本申请的整体构思,下面结合说明书附图以示例的方式进行详细说明。
本申请的实施例公开了一种知识图谱构建方法,如图1所示,包括以下步骤:
步骤101、从电力数据中,获取第一电力语料。
在本申请实施例中,电力数据包括电力专业书,借助专业书的专业体系和专业知识,保证知识图谱的正确性。之后,通过网络获取相关的电力知识并利用获取到的电力知识不断完善得到的知识图谱。此外,为了能够更加便于从业人员对知识点进行理解,在获取电力语料之外,还会根据专业书中图片对应的标签,获取各知识点对应的图片,以便于将知识点和图片关联到一起,从而加深从业人员对知识点的理解。
步骤102、利用预先训练好的语义分析模型从第一电力语料中提取多个实体、多个领域本体和多个关联关系。
在本申请实施例中,关联关系包括:多个实体之间的关联关系、多个领域本体之间的关联关系和实体与领域本体之间的关联关系中的一个或多个。其中,实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等,在本申请实施例中,实体为电力专业的知识元,即知识点。领域本体是描述指定领域知识的一种专门本体,它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。在本申请实施例中,领域本体是知识元对应的最近领域,即专业书中对知识点的分类,例如,晶体振荡器就是一个知识点,晶体振荡器对应的领域本体为正弦波振荡器。实体之间的关联关系包括:逻辑关系和数量关系,例如电流是电压差的传播,因此电流和电压为逻辑关系,电缆尺寸比电线尺寸大电缆和电线的关系是数量关系。多个领域本体之间的关联关系包括:测量关系,例如电子元器件与电气常量属于两个不同的领域本体,两者的关系为电气常量可以被电子元器件测量。实体与领域本体之间的关联关系包括:从属关系,例如电流表为实体和电子元器件为领域本体,电流表属于电子元器件。
在本申请实施例中,在训练语义分析模型时,以bio(begin inside outside)模式标注一部分训练数据。在专业书中,通常按章节来进行排版,这可能会造成各章节的文字表述脱节,不便于确定各知识点和各技术领域之间的关联关系。为了保证模型的训练效果,会以bio的方式预先对专业书中脱节的地方进行标注,如此在训练过程中,语义分析模型会将脱节的部分关联起来。
嵌套层采用bert(双向编码器表示的变形器,Bidirectional EncoderRepresentations Transformers)预训练的方法训练,以提高训练效率。并利用bert的中文预训练模型Chinese_L-12_H-768_A-12作为基础模型。解码层采用bilstm(双向长短期记忆网络,Bi-directionalLong Short-Term Memory)来识别实体和领域本体,crf层(条件随机场,conditional random field)用来约束识别算法,以减少误差。
步骤103、根据多个实体和预设的多个领域本体,并通过相应关联关系,得到相应实体的第一知识图谱。
在本申请实施例中,以各实体和预设的各领域本体为节点,以各关联关系为连线,利用各连线连接各节点,得到各实体的第一知识图谱。通过上述方式使得每个知识点以及与之关联的其他知识点、其他技术领域都能在知识图谱中得到最大程度的展示。
在本申请实施例中,实体包括:多个属性,每一个属性对应至少一个属性值。例如,在知识图谱的使用人群中,有相当一部分人是在校生。为了能更好的帮助在校生学习电力知识,在构建实体中加入问题属性和答案属性,问题属性指电力领域与知识点相关的习题,答案属性为习题的答案。对于问题属性,题目的文字描述即为属性值,对于习题答案计算过程和最终结果即为属性值。那么对于同一道习题可能由于解题思路不一样而出现不一样的答案,那么对于上述情况,需要检测各多个属性是否存在多个属性值。在属性存在多个属性值时,将出现次数最多的属性值作为第一知识图谱中相应实体的属性值。
步骤104、对多个实体的第一知识图谱进行合并和拼接,得到第二知识图谱。
在本申请实施例中,在第二图谱中,实体、领域本体以及关联关系构成展示路径,以便于基于第二知识图谱的展示按照展示路径进行展示。例如,在知识图谱中,对于短路电流这个知识点,在知识图谱中会展示根据因果关系展示下述知识点:引发短路电流的原因,短路电流造成的后果。同时根据控制关系延伸到其他领域的知识点,例如自动化控制领域的智能控制。如此,本领域技术人员可以除了掌握短路电流以外还可以了解引发短路电流的原因,短路电流造成的后果以及短路电流的监控办法,从而达到从多维度学习短路电流的目的。
步骤105、利用网络资源对第二知识图谱进行更新。
在本申请实施例中,步骤101到步骤104利用专业书搭建了一个基础的知识图谱,对于知识急剧增长的今天上述知识图谱还远远不能满足人们的需求。因此,通过创建索引信息和上下位语义网络的方式,从互联网中不断的获取新知识以形成能够自我完善的智能知识图谱。其具体实现方式如下:
首先,分别确定各实体对应的第一关键词,各领域本体对应的第二关键词。根据各第一关键词和各第二关键词,生成第二知识图谱的索引信息。知识点或技术领域很多时候不只是一个词,有可能是一个句子或是一段文字。因此,需要提取关键词以表示这些知识点,这些关键词就是所述的索引信息。这些索引信息除了便于查找知识点和技术领域之外,还用来生成上下位语义网络。
在本申请实施例中,上下位语义网络包括各第一关键词和各第二关键词之间的上下位关系数据,例如电流表就是电子元器件的下位概念而,电子元器件就是电流表的上位概念。利用语义分析模型对各关键词进行上下位语义分析从而得到各个关键词的上下位关系,再利用上下位关系对知识图谱中各实体和领域本体对应的关键词进行梳理以得到一个网状的数据结构。其中,上下位语义分析指确定各关键词之间的上下位关系。在网状数据结构中,为每一个关键词设置一个虚拟的位置,以存放关键词。当添加新知识点或新技术领域时,在对应的网状结构中创建新的位置来存储新的关键词。例如,上下位语义网络本来包含有电流表和电子元器件,检测到新知识点电压表后对“电压表”进行语义分析,确认电压表为电子元器件的下位概念,因此在电流表所在的层位创建一个虚拟位置来存储关键词“电压表”。
在创建完上下位语义网络,利用索引信息和上下位语义网络,从网络中获取第二电力语料。需要说明的是,知识图谱要以自身现有的知识为基础进行扩展,而不是单独的获取某一个知识点,如此保证在知识图谱中不会出现孤立的知识点或领域本体。之后,利用语义分析模型从第二电力语料中,提取多个待检测实体、多个待检测领域本体和多个待检测关联关系。通过比较待检测实体与实体的属性值、待检测关联关系与关联关系,分别确定各待检测实体是否为第二知识图谱中实体。如果待检测实体为知识图谱中已存在的实体,那么待检测实体与相应的实体合并。如果待检测实体不是知识图谱中已存在的实体,则针对该待检测实体创建第三知识图谱,第三知识图谱结构与第一知识图谱相同。最后对第三知识图谱和第二知识图谱进行拼接和合并。上述方法同样适用于添加领域本体。
由此可见,在本申请实施例中,当检测到新知识时,知识图谱能够自动完善知识图谱。同时,利用语义分析模型对第三关键词进行语义分析,并根据上下位关系数据和第三关键词的语义信息,将第三关键词添加到上下位语义网中相应的位置,并更新索引信息。通过上述方式,本申请实施例能够实现同步更新上下位语义网、索引信息和知识图谱。如此,在下一次采集网络数据时,就可以利用更新后的索引信息和知识图谱采集数据,并再次同步更新上下位语义网、索引信息和知识图谱,从而实现知识图谱的智能更新。
在本申请实施例中,基于上述知识图谱的展示方式旨在最大限度将与知识点相关的知识展示给用户。具体地,接收来自于用户的检索信息后,利用语义分析模型对检索信息进行语义识别。再根据识别结果,在索引信息中确定至少一个第二知识图谱中的节点。在确定存在一个第二知识图谱中的节点时,返回节点的预设展示路径。在确定存在多个第二知识图谱中的节点时,在第二知识图谱中,确定各节点间的所有展示路径,并返回各展示路径。由此可见,本申请实施例提供的技术方案以多步推理为基础对查询结果进行展示。
此外,鉴于上述查找方式,在本申请实施例中,为便于用户使用知识图谱,用户可以在操作界面上选择图形模块素材、维度模块素材以形成符合自身需求的检索模板。需要上说明的是,上述图形模块素材、维度模块素材均具有相应的关键词。之后,根据用户输入的关键词以及形模块素材、维度模块素材对应关键词,生成针对本次搜索的各知识维度的内容链。然后,在知识图谱的索引信息中匹配出相应的关键词,从而完成相应的检索。鉴于知识点繁多纷杂,很难用一个或几个关键词对知识点进行精确检索,因而在本申请实施例中,结合Neo4j和ElasticSearch为从业人员提供全文检索服务,其中,neo4j主要用于查询短文本,ElasticSearch主要用于查询长文本和图片。如此,从业人员可以查询到更多与知识点相关的细节包括文章,图片。
本申请实施例提供了一种知识图谱构建装置,如图2所示,包括:获取模块201、数据处理模块202、图谱绘制模块203和索引信息生成模块204;
获取模块201用于从电力数据中,获取第一电力语料;
数据处理模块202用于利用预先训练好的语义分析模型从第一电力语料中提取多个实体、多个领域本体和多个关联关系;关联关系包括:多个实体之间的关联关系、多个领域本体之间的关联关系和实体与领域本体之间的关联关系中的一个或多个,实体为电力专业的知识元,领域本体是知识元对应的最近领域;
图谱绘制模块203用于对于提出的各实体,根据该实体与其它实体的关联关系,以及根据该实体与各领域本体的关联关系,得到该实体的第一知识图谱;对多个实体的第一知识图谱进行合并和拼接,得到第二知识图谱;其中,在第二图谱中,实体、领域本体以及关联关系构成展示路径,以便于基于第二知识图谱的展示按照展示路径进行展示。
索引信息生成模块204用于分别确定各实体对应的第一关键词,各领域本体对应的第二关键词;根据各第一关键词和各第二关键词,生成第二知识图谱的索引信息;
数据处理模块202还用于利用语义分析模型对各第一关键词和各第二关键词进行上下位语义分析;根据上下位语义分析结果,创建上下位语义网络,上下位语义网络包括各第一关键词和各第二关键词之间的上下位关系数据;根据上下位语义网络,添加新的关键词,以完善上下位关系数据。
在本申请实施例中,获取模块201还用于根据索引信息和上下位语义网络,从网络中获取第二电力语料;
数据处理模块202还用于利用语义分析模型从第二电力语料中,提取多个待检测实体、多个待检测领域本体和多个待检测关联关系;通过比较待检测实体与实体的属性值、待检测关联关系与关联关系,分别确定各待检测实体是否为第二知识图谱中实体;将与实体相同的待检测实体与相应的实体合并;
图谱绘制模块203还用于针对与实体不同的待检测实体创建第三知识图谱,第三知识图谱结构与第一知识图谱相同;对第三知识图谱和第二知识图谱进行拼接和合并。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种知识图谱构建方法,其特征在于,包括:
从电力数据中,获取第一电力语料;
利用预先训练好的语义分析模型,从所述第一电力语料中提取多个实体、多个领域本体和多个关联关系;所述关联关系包括:所述多个实体之间的关联关系、所述多个领域本体之间的关联关系和所述实体与所述领域本体之间的关联关系中的一个或多个,所述实体之间的关联关系包括:逻辑关系和数量关系;多个领域本体之间的关联关系包括测量关系;所述实体与所述领域本体之间的关联关系包括:从属关系;
对于提出的各所述实体,根据该实体与其它实体的关联关系,以及根据该实体与各领域本体的关联关系,得到该实体的第一知识图谱;
对多个所述实体的第一知识图谱进行合并和拼接,得到第二知识图谱;其中,在所述第二知识图谱中,所述实体、领域本体以及所述关联关系构成展示路径,以便于基于所述第二知识图谱的展示按照所述展示路径进行展示;
所述方法还包括:
分别确定各所述实体对应的第一关键词,各所述领域本体对应的第二关键词;
根据各所述第一关键词和各所述第二关键词,生成所述第二知识图谱的索引信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述语义分析模型对各所述第一关键词和各所述第二关键词进行上下位语义分析;
根据所述上下位语义分析结果,创建上下位语义网络,所述上下位语义网络包括各所述第一关键词和各所述第二关键词之间的上下位关系数据;
根据所述上下位语义网络,添加新的关键词,以完善所述上下位关系数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述索引信息和所述上下位语义网络,从互联网中获取第二电力语料;
利用所述语义分析模型从所述第二电力语料中,提取待检测实体、待检测领域本体和待检测关联关系;
通过比较所述待检测实体与所述实体的属性值、所述待检测关联关系与所述关联关系,分别确定各所述待检测实体是否为所述第二知识图谱中所述实体;
将与所述实体相同的待检测实体与相应的实体合并;
针对与所述实体不同的待检测实体创建第三知识图谱,所述第三知识图谱结构与所述第一知识图谱相同;
对所述第三知识图谱和所述第二知识图谱进行拼接和合并。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定与所述实体不同的待检测实体的第三关键词;
利用所述语义分析模型对所述第三关键词进行语义分析,并根据所述上下位关系数据和所述第三关键词的语义信息,将所述第三关键词添加到所述上下位语义网中相应的位置,并更新所述索引信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第二知识图谱的展示按照所述展示路径进行展示,包括:
接收来自于用户终端的检索信息;
利用所述语义分析模型对所述检索信息进行语义识别,并根据所述索引信息,确定至少一个所述第二知识图谱中的节点;
确定存在一个所述第二知识图谱中的节点时,返回所述节点的预设展示路径;
确定存在多个所述第二知识图谱中的节点时,在所述第二知识图谱中,确定各所述节点间的所有展示路径,并返回各所述展示路径。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述实体包括:多个属性,每一个所述属性对应至少一个属性值;
检测各所述属性是否存在多个属性值;
在所述属性存在多个属性值时,将出现次数最多的所述属性值作为所述第一知识图谱中相应实体的属性值。
7.一种知识图谱构建装置,其特征在于,包括:获取模块、数据处理模块和图谱绘制模块;
所述获取模块用于从电力数据中,获取第一电力语料;
所述数据处理模块用于利用预先训练好的语义分析模型,从所述第一电力语料中提取多个实体、多个领域本体和多个关联关系;所述关联关系包括:所述多个实体之间的关联关系、所述多个领域本体之间的关联关系和所述实体与所述领域本体之间的关联关系中的一个或多个,所述实体之间的关联关系包括:逻辑关系和数量关系;多个领域本体之间的关联关系包括测量关系;所述实体与所述领域本体之间的关联关系包括:从属关系;
所述图谱绘制模块用于对于提出的各所述实体,根据该实体与其它实体的关联关系,以及根据该实体与各领域本体的关联关系,得到该实体的第一知识图谱;对多个所述实体的第一知识图谱进行合并和拼接,得到第二知识图谱;其中,在所述第二知识图谱中,所述实体、领域本体以及所述关联关系构成展示路径,以便于基于所述第二知识图谱的展示按照所述展示路径进行展示;分别确定各所述实体对应的第一关键词,各所述领域本体对应的第二关键词;根据各所述第一关键词和各所述第二关键词,生成所述第二知识图谱的索引信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:索引信息生成模块;
所述索引信息生成模块用于分别确定各所述实体对应的第一关键词,各所述领域本体对应的第二关键词;根据各所述第一关键词和各所述第二关键词,生成所述第二知识图谱的索引信息;
所述数据处理模块还用于利用所述语义分析模型对各所述第一关键词和各所述第二关键词进行上下位语义分析;根据所述上下位语义分析结果,创建上下位语义网络,所述上下位语义网络包括各所述第一关键词和各所述第二关键词之间的上下位关系数据;根据所述上下位语义网络,添加新的关键词,以完善所述上下位关系数据。
9.根据权利要求8所述的装置,其特征在于,
所述获取模块还用于根据所述索引信息和所述上下位语义网络,从互联网中获取第二电力语料;
所述数据处理模块还用于利用所述语义分析模型从所述第二电力语料中,提取多个待检测实体、多个待检测领域本体和多个待检测关联关系;通过比较所述待检测实体与所述实体的属性值、所述待检测关联关系与所述关联关系,分别确定各所述待检测实体是否为所述第二知识图谱中所述实体;将与所述实体相同的待检测实体与相应的实体合并;
所述图谱绘制模块还用于针对与所述实体不同的待检测实体创建第三知识图谱,所述第三知识图谱结构与所述第一知识图谱相同;对所述第三知识图谱和所述第二知识图谱进行拼接和合并。
CN201911229010.1A 2019-12-04 2019-12-04 一种知识图谱构建方法和装置 Active CN111177399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911229010.1A CN111177399B (zh) 2019-12-04 2019-12-04 一种知识图谱构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911229010.1A CN111177399B (zh) 2019-12-04 2019-12-04 一种知识图谱构建方法和装置

Publications (2)

Publication Number Publication Date
CN111177399A CN111177399A (zh) 2020-05-19
CN111177399B true CN111177399B (zh) 2023-06-16

Family

ID=70656161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911229010.1A Active CN111177399B (zh) 2019-12-04 2019-12-04 一种知识图谱构建方法和装置

Country Status (1)

Country Link
CN (1) CN111177399B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737494B (zh) * 2020-06-28 2021-03-12 上海松鼠课堂人工智能科技有限公司 智能学习系统的知识图谱生成方法
CN111858956B (zh) * 2020-07-07 2024-04-12 咪咕文化科技有限公司 知识图谱构建方法、装置、网络设备及存储介质
CN112100343B (zh) * 2020-08-17 2024-06-21 深圳数联天下智能科技有限公司 一种扩充知识图谱的方法、电子设备及存储介质
CN112395432B (zh) * 2021-01-19 2021-04-06 平安科技(深圳)有限公司 课程推送方法、装置、计算机设备及存储介质
CN112949312A (zh) * 2021-03-26 2021-06-11 中国美术学院 一种产品知识融合方法和系统
CN113569580A (zh) * 2021-09-24 2021-10-29 太极计算机股份有限公司 基于语义理解的知识图谱构建方法、检索方法及其系统
CN114579676B (zh) * 2022-05-07 2022-07-15 中科雨辰科技有限公司 一种基于组合关系的检索系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373590A (zh) * 2015-10-22 2016-03-02 百度在线网络技术(北京)有限公司 知识数据的处理方法及装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN108256070A (zh) * 2018-01-17 2018-07-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN108345596A (zh) * 2017-01-22 2018-07-31 分众(中国)信息技术有限公司 楼宇信息融合服务平台
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109710776A (zh) * 2018-12-29 2019-05-03 中国科学技术大学 相册的知识图谱的构建方法
CN109947950A (zh) * 2019-03-14 2019-06-28 长沙沃本智能科技有限公司 基于中间层核心本体的领域知识图谱的构建方法和装置
CN110019842A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 一种建立知识图谱的方法及装置
CN110470303A (zh) * 2019-08-14 2019-11-19 新疆维吾尔自治区人民医院 一种医院内就诊导航方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7735068B2 (en) * 2005-12-01 2010-06-08 Infosys Technologies Ltd. Automated relationship traceability between software design artifacts
US20160255139A1 (en) * 2016-03-12 2016-09-01 Yogesh Chunilal Rathod Structured updated status, requests, user data & programming based presenting & accessing of connections or connectable users or entities and/or link(s)

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373590A (zh) * 2015-10-22 2016-03-02 百度在线网络技术(北京)有限公司 知识数据的处理方法及装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108345596A (zh) * 2017-01-22 2018-07-31 分众(中国)信息技术有限公司 楼宇信息融合服务平台
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN108256070A (zh) * 2018-01-17 2018-07-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN110019842A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 一种建立知识图谱的方法及装置
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109710776A (zh) * 2018-12-29 2019-05-03 中国科学技术大学 相册的知识图谱的构建方法
CN109947950A (zh) * 2019-03-14 2019-06-28 长沙沃本智能科技有限公司 基于中间层核心本体的领域知识图谱的构建方法和装置
CN110470303A (zh) * 2019-08-14 2019-11-19 新疆维吾尔自治区人民医院 一种医院内就诊导航方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘峤等."知识图谱构建技术综述".《计算机研究与发展》.2016,全文. *
孙海霞 ; 李军莲 ; 李丹亚 ; 夏光辉 ; 吴英杰 ; 冀玉静 ; 张宁 ; .文献数据库知识构建体系设计与实践――以SinoMed为例.图书情报工作.2013,(第20期),全文. *

Also Published As

Publication number Publication date
CN111177399A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177399B (zh) 一种知识图谱构建方法和装置
CN110188168B (zh) 语义关系识别方法和装置
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
CN109885672A (zh) 一种面向在线教育的问答式智能检索系统及方法
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN111368048B (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
KR100980579B1 (ko) 온톨로지에 대한 자연어 질의 검색 방법 및 시스템
CN111291187B (zh) 一种情感分析方法、装置、电子设备及存储介质
CN104484374A (zh) 一种创建网络百科词条的方法及装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
Santosh et al. Opinion mining of online product reviews from traditional LDA Topic Clusters using Feature Ontology Tree and Sentiwordnet
CN105809186A (zh) 情感分类的方法及系统
EP4145303A1 (en) Information search method and device, electronic device, and storage medium
CN112131401B (zh) 一种概念知识图谱构建方法和装置
CN112163097A (zh) 一种军事知识图谱构建方法及系统
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN110888989A (zh) 一种智能学习平台及其构建方法
Lubis et al. Topic discovery of online course reviews using LDA with leveraging reviews helpfulness
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
Paperno et al. Corpus-based estimates of word association predict biases in judgment of word co-occurrence likelihood
CN112905744A (zh) 一种侨情问答方法、装置、设备及存储装置
CN111861546A (zh) 一种评论质量的判断方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210930

Address after: 3 / F, xindongyuan North building, 3501 Chengfu Road, Haidian District, Beijing 100083

Applicant after: HUARUI XINZHI TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: Huarui Xinzhi Baoding Technology Co.,Ltd.

Address before: Room 91818, 9 / F, building 683, zone 2, No. 5, Zhongguancun South Street, Haidian District, Beijing 100083

Applicant before: HUARUI XINZHI TECHNOLOGY (BEIJING) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant