CN113742498B

CN113742498B - 一种知识图谱的构建更新方法

Info

Publication number: CN113742498B
Application number: CN202111123094.8A
Authority: CN
Inventors: 黄吉海; 贾尽裴; 黄大千; 赵璟
Original assignee: Research Center Of State Owned Assets Supervision And Administration Commission Of State Council
Current assignee: Research Center Of State Owned Assets Supervision And Administration Commission Of State Council
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2024-04-09
Anticipated expiration: 2041-09-24
Also published as: CN113742498A

Abstract

本发明提供了一种知识图谱的构建更新方法，包括对输入的非结构化数据或半结构化数据的数据文本进行分词处理，确定语句集合；抽取所述语句集合中的属性信息、关系信息和实体信息；通过共指消解和实体消歧技术将所述属性信息、关系信息和实体信息进行融合处理，确定融合信息，并基于预设的结构化数据和第三方知识库，验证所述融合信息；根据验证后的融合信息，构建知识图谱，并对所述知识图谱进行更新。

Description

一种知识图谱的构建更新方法

技术领域

本发明涉及知识图谱的数据管理技术领域，特别涉及一种知识图谱的构建更新方法。

背景技术

目前，在国资监管的领域，现有技术中主要是通过人工和系统的数据分类进行管理，但是国资监管领域的监管数据主要是结构化数据和非结构化数据，而采用人工和现有的管理系统对数据处理十分困难，而且效率十分低下。

在现有技术中，知识图谱能够提供可被计算机理解的结构化语义信息已经成为诸多人工智能应用不可或缺的重要资源，但是受到“不完备性(Incompleteness)”的影响。知识图谱补全(Knowledge GraphCompletion，KGC)任务应运而生，旨在根据知识图谱中已有的知识，测目前知识图谱所缺失的知识，关系推理预测是其典型研究方向和应用任务，因此，需要构建一种能够进行国资监管的知识图谱，解决现有技术中国资监管困难的问题。

发明内容

本发明提供一种知识图谱的构建更新方法，用以解决采用人工和现有的管理系统对国资监管数据处理十分困难，而且效率十分低下的情况。

一种知识图谱的构建更新方法，其特征在于，包括：

对输入的非结构化数据或半结构化数据的数据文本进行分词处理，确定语句集合；

抽取所述语句集合中的属性信息、关系信息和实体信息；

通过共指消解和实体消歧技术将所述属性信息、关系信息和实体信息进行融合处理，确定融合信息，并基于预设的结构化数据和第三方知识库，验证所述融合信息；

根据验证后的融合信息，构建知识图谱，并对所述知识图谱进行更新。

作为本发明的一种实施例，所述对输入的非结构化数据或半结构化数据的数据文本进行分词处理，确定语句集合，包括以下步骤：

获取所述非结构化数据或半结构化数据的数据文本，提取文本列表信息；

根据所述文本列表信息，对所述数据文本进行单条过滤，确定过滤文本；

将所述过滤文本通过HanLP分词处理，确定分词信息；

根据所述分词信息，确定语句集合。

作为本发明的一种实施例，所述抽取所述语句集合中的属性信息、关系信息和实体信息，包括：

将所述句子集合以句子为单位进行遍历处理，确定遍历分词集合；

根据所述遍历分词集合，确定实体信息；其中，

所述实体信息包括：专家、领导、企业、行业、研究领域、地域、会议、研究机构、事件；

根据所述实体信息，确定所述实体信息中每类信息的属性信息；

根据所述实体信息和属性信息中的相同信息，确定所述语句集合的关系信息。

作为本发明的一种实施例，所述抽取所述语句集合中的属性信息、关系信息和实体信息，还包括：

根据所述关系信息，通过预设的关系数据库保存抽取过程中的时间因素；

根据所述关系信息，通过预设的图数据库保存的关系本体信息。

作为本发明的一种实施例，所述通过共指消解和实体消歧技术将所述属性信息、关系信息和实体信息进行融合处理，确定融合信息，并基于预设的结构化数据和第三方知识库，验证所述融合信息，包括：

将所述实体信息通过共指消解，融合所述属性信息和关系信息；

将所述实体信息和融合后的属性信息和关系信息和关系信息进行实体消歧，删除所述实体信息的不同含义，得到融合信息；

根据所述结构化数据，判断所述结构化数据中是否包括所述融合信息；

当所述结构化数据中不包含所述融合信息时，根据所述第三方知识库验证所述融合信息是否为真实信息；

当所述融合信息为真实信息时，保存确定所述融合信息；

当所述融合信息为错误信息时，将所述融合信息保存在错误信息数据库。

作为本发明的一种实施例，所述根据验证后的融合信息，构建知识图谱，并对所述知识图谱进行更新包括：

将所述验证后的融合信息通过质量评估，确定知识图谱；其中，

将所述验证后的融合信息进行质量评估还包括；

抽取所述验证后的融合信息的本体数据，对所述本体数据进行质量评估，根据评估后的本体数据更新所述知识图谱；

根据所述知识图谱，基于知识推理，获取推理数据，并将所述推理数据进行质量评估，根据评估后的推理数据更新所述知识图谱。

作为本发明的一种实施例，所述方法还包括：

根据所述语句集合，判断所述句子集合中的关键字；

当所述语句集合存在关键字时，抽取实体信息；

当所述语句集合不存在关键字时，执行无实体处理；其中，

所述无实体处理包括：

遍历所述语句集合，确定遍历分词前单词的词性信息；

根据所述词性信息，筛选出符合组成实体信息的第一语句集合；

根据所述第一语句集合，确定实体信息集合。

作为本发明的一种实施例，所述方法还包括：

根据所述语句集合，判断是否能够抽取所述语句集合中的属性信息、关系信息和实体信息；

所述判断过程包括如下步骤：

获取所述句子集合中的关键字；

根据所述关键字，获取事件信息；

对所述事件信息的完整度进行评分；

将所述评分与预设的评分阈值进行比较，

当所述评分大于等于所述评分阈值时，保存所述语句集合，并抽取所述语句集合中的属性信息、关系信息和实体信息；

当所述评分小于所述评分阈值时，保存所述语句集合。

作为本发明的一种实施例，所述根据评估后的推理数据更新所述知识图谱包括：

步骤1：将所述知识图谱数据在空间坐标系中进行分类，并构建知识图谱的扩展评估模型Y：

其中，i表示知识图谱的数据的分类数，表示个数，i＝1,2,3,……n；ξ_a表示知识图谱的第i类数据指示在(X,Y)点的原数据，ξ_b表示知识图谱的第i类数据在(X,Y)点的扩展数据，G表示知识图谱的第i类数据在(X,Y)点幅度值；(X,Y)点为每类知识图谱的数据在空间坐标系上的坐标点；

步骤2：在所述推理扩展模型中重复推理数据，确定原知识图谱的评估模型YA，并确定评估比β：

步骤3，将所述评估比β带入预设的傅里叶阈值模型，得到更新判断模型Q；

其中，所述H第i类数据在(X,Y)点的傅里叶系数，所述h表示第i类数据在(X,Y)点的长度，所述M表示第i类数据在(X,Y)点的占用空间大小；

当Q大于1的时候，表示评估后的推理数据能够更新所述知识图谱；

当Q小于1的时候，表示评估后的推理数据不能够更新所述知识图谱。

作为本发明的一种实施例，所述方法还包括：

获取所述数据文本的获取时间，并建立时间戳；

根据所述时间戳，判断所述非结构化数据或半结构化数据在不同时间戳下是否存在增添；

当存在增添时，对存在增添的数据文本进行更新个体标记，并根据所述更新个体标记进行知识图谱对应更新。

作为本发明的一种实施例，所述方法还包括：

根据所述属性信息、关系信息和实体信息，进行数据预处理，将语句集合按照实体、关系和静态属性分别存储，并在分别存储时，生成对应的时间戳表；

根据所述时间戳表，将不同数据文本的语句集合进行存储。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种知识图谱的构建更新方法的方法流程图；

图2为本发明实施例中组成的知识图谱的技术构架图；

图3为本发明实施例中专家为实体信息时的流程图；

图4为本发明实施例中公司为实体信息时的流程图；

图5为本发明实施例中会议为实体信息时的流程图；

图6为本发明实施例中实体事件为实体信息时的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

一种知识图谱的构建更新方法，包括：

对输入的非结构化数据或半结构化数据的数据文本进行分词处理，确定语句集合；在国资监管领域会根据业务类型或系统类型，会产生大量的报表数据或者其它共享数据、视频、音频、文本等数据，本发明基于这些非结构化数据和半结构化数据，以数据文本的形式进行数据处理，分词主要是划分关键词，进而根据关键词划分语句集合。

抽取所述语句集合中的属性信息、关系信息和实体信息；实体信息即个数据的主题信息，关系信息表示不同数据主题下的或者同一主题下数据之间的重合度，语意关系度。而属性信息为时间、年份、月份、数据大小、数据类型这些不同数据之间的特征信息。数据之间的特征信息会具有一定的区别。

通过共指消解和实体消歧技术将所述属性信息、关系信息和实体信息进行融合处理，确定融合信息，并基于预设的结构化数据和第三方知识库，验证所述融合信息；共指消解是指多个关键词或者主题指向同一数据实体。实体消歧是关键词具有多种指向性含义是删除多余的含义，只保留唯一的一种指向性含义。

根据验证后的融合信息，构建知识图谱，并对所述知识图谱进行更新。图谱的更新是动态更新，时时刻刻都有结构化数据或非结构话数据导入。资监管领域知识图谱构建过程中，相关实体(专家、领导、企业、行业、研究领域、地域、会议、研究机构、事件)及其属性以及其相互之间的关系的抽取过程。其抽取的数据源不仅仅是国资监管领域最新的研究资讯信息，还包括了一些第三方提供的数据信息等。

该文档首先是从单个实体之间的信息抽取入手，一个一个介绍实体及属性抽取、关系抽取。最后，才给出了整个知识图谱信息抽取流程图图示。对知识图谱关系抽取过程中所涉及到时间因素，我们这里统一采用关系数据库保存时间因素，而图数据库则保存关系本身信息。

将所述过滤文本通过HanLP分词处理，确定分词信息；

根据所述分词信息，确定语句集合。

双基数方案的原理在于：系统首先获取需要进行提取的文章列表信息。然后对这些待处理信息进行单条过滤处理。对于每一条待处理的研究资讯，系统首先对其进行HanLP分词，分词是分关键词，根据关键词确定语句，然后以句子为单位进行遍历。

上述技术方案的有益效果在于：本发明对数据已文本的形式获取，便于对数据进行关键词区分，而通过过滤，删除了无效文本，增加知识图谱的效率。HanLP是一种语言处理包，便于对语言识别分析。

根据所述遍历分词集合，确定实体信息；其中，

根据所述实体信息和属性信息中的相同信息，确定所述语句集合的关系信息。属性信息，例如：系统自动通过知网wap端接口获取该专家的职称、单位、科研领域、H指数、G指数、总被引次数、总下载次数等信息，补全该专家的属性信息。(在这个接口，其实也可以一起保存该用户历年的发文指数详情以及发表的论文简单信息等。)

上述技术方案的有益效果在于：通过相关实体(专家、领导、企业、行业、研究领域、地域、会议、研究机构、事件)及其属性以及其相互之间的关系的抽取，便于对不同的数据进行数据融合，实现对数据的综合处理。

根据所述关系信息，通过预设的关系数据库保存抽取过程中的时间因素；时间因素信息是关系信息的特征信息，同一时间获取的信息必定关系相近，荣光时间因素，便于提高关系信息的准确度。

根据所述关系信息，通过预设的图数据库保存的关系本体信息。关系本体信息，即双方之间本体数据关系，可以实现数据的迅速识别删除。

当所述融合信息为真实信息时，保存确定所述融合信息；

上述技术方案的原理在于：共指消解和实体消歧是数据中提高数据指向性，并提高数据语意唯一性的数据处理技术，而在数据融合时，为了降低无用数据空间的损耗，对歧义和指向性进行唯一性处理，提高数据唯一性。而通过第三方数据对数据进行验证和通过结构化数据对数据进行识别，是为了保证没有相同数据的重复存储，降低数据错误率。例如：根据专家名称获取知网专家信息，能获取成功，则说明是知网专家。获取失败，则说明不是知网专家。

首先是根据名称判断是不是知网专家。该方法最终返回的结果如果是专家的话，则返回”专家名称，专家单位，专家知网Code值”。如果不是专家则返回空。

上述技术方案的有益效果在于：降低无用数据空间的损耗，需要对歧义和指向性进行提高。保证没有相同数据的重复存储，减少了数据的空间占用，降低了数据错误率。

将所述验证后的融合信息进行质量评估还包括；

在一个实施例中：在对文章进行分词的基础上。一句句的处理分词后句子集合。会议抽取程序首先依据输入好的会议关键词对句子进行过滤筛选。含有会议关键词的句子，才可以进入到后面的处理流程；没有会议关键词的句子，则只能作为无会议实体处理。第二步，就是在用会议关键词过滤的基础上，记住关键词的位置及信息。然后遍历关键词在该句子中的前面单词的词性信息，符合组成会议名称的则留下；不符合的，则放开。

得到第一个会议名称后，用这个句子把会议名称替换为空。然后作为输入，再进行会议名称提取，直至提取会议名称为空。则可返回会议名称集合。

作为本发明的一种实施例，所述方法还包括：

根据所述语句集合，判断所述句子集合中的关键字；

当所述语句集合存在关键字时，抽取实体信息；

当所述语句集合不存在关键字时，执行无实体处理；其中，

所述无实体处理包括：

遍历所述语句集合，确定遍历分词前单词的词性信息；

根据所述第一语句集合，确定实体信息集合。

在一个实施例中：事件实体抽取的核心在于从研究资讯中抽取出事件关键句子。抽取事件关键句子的方法，最简单的莫过于指定文章标题或者文章第一句话为事件关键句子，然后提取事件信息，并对事件进行评分，大于事件保存阈值的才保存进数据库，小于保存阈值的则不保存。这种方法主要是基于新闻突发事件的报道原则进行逆向推理得来的。

但是对于大部分非突发性事件报道的研究资讯类新闻来说，直接指定标题或者首句，很多时候并不能反映研究资讯中的事件。这个时候，可以采用基于事件类型和上下文关键词匹配的方式来综合获取事件信息。这种方式较第一种，执行时间会稍长。其准确度受到事件类型的定义以及上下文关键词设置的准确度等因素的影响

作为本发明的一种实施例，所述方法还包括：

所述判断过程包括如下步骤：

获取所述句子集合中的关键字；

根据所述关键字，获取事件信息；

对所述事件信息的完整度进行评分；

将所述评分与预设的评分阈值进行比较，

当所述评分小于所述评分阈值时，保存所述语句集合。

上述技术方案的原理在于：本发明通过在抽取语句是，通过对属性信息的判断，确定事件信息，事件信息是通过多个关键字进行确定。而事件信息的完整度，依靠事件的阈值进行确定，评分决定的事件的完整度分值，在阈值之上，表示事件完整，数据合理充分。

上述技术方案的有益效果在于：本发明通过对事件完整度的处理，提高了数据处理的效率事件信息完整，表示事件能够提取出实体信息、关系信息和属性信息。有利于非结构化数据和半结构化数据进行知识图谱的分类。

其中，i表示知识图谱的数据的分类数，i是一个整数，i＝1,2,3,……n；ξ_a表示知识图谱的第i类数据指示在(X,Y)点的原数据的数据特征，ξ_b表示知识图谱的第i类数据在(X,Y)点的扩展数据特征，G表示知识图谱的第i类数据在(X,Y)点幅度值；(X,Y)点为每类知识图谱的数据在空间坐标系上的坐标点；

在上述技术方案的中，本发明建立的是扩展评估模型，本发明采用了空间坐标带入的方式，基于指数函数建立了立体式空间图谱，然后通过这个图谱

其中，H表示第i类数据在(X,Y)点的傅里叶系数，h表示第i类数据在(X,Y)点的长度，M表示第i类数据在(X,Y)点的占用空间大小；

上述技术方案的有益效果在于：本发明通过建知识图谱的扩展评估模型，确定知识图谱在扩展后的状态，而评估是对扩展更新后的模拟评估，贴近知识图谱的真实状态，而原评估模型是融合信息的直接评估模型代表了数据的原始状态。而评估比确定原始状态可扩展后状态的区别。最后的判断模型通过对评估比代入，验证扩展的数据能不能符合知识图谱中类型和空间占用大小，有利于提高更新的准确性和效率，本发明是一个知识图谱实时更新的动态知识图谱，因此，这个判断补助，提高了动态更新的效率。

在一个实施例中如附图3、4、5、6分别在数据文本中包含专家、公司、会议或事件信息时的处理流程。本发明可以针对国资监管的不同领域的数据，全面性、灵活性和扩展性高。针对不同的实体信息，具有不同的处理流程，提高了本发明的在进行国资监管时的全面性和效率。

作为本发明的一种实施例，所述方法还包括：

获取所述数据文本的获取时间，并建立时间戳；

上述技术方案的原理在于：本发明在进行知识图谱更新的过程中，会根据不同的不同的数据文本输入时间都打上对应的时间戳。同一类型的数据文本，因为时间戳的不同就可以判断数据是不是存在增添，在存在数据增添的时候，时间戳可以直接转换为更新个体标记，表示有同类数据更新了，然后在数据更新的时候对应把知识图谱也进行更新。

上述技术方案的有益效果在于：本发明能够根据具体的时间戳去对数据是否更新进行判断，最终根据判断结果对数据进行内部和知识图谱对应的更新。

作为本发明的一种实施例，所述方法还包括：

根据所述时间戳表，将不同数据文本的语句集合进行存储。

上述技术方案的原理在于：本发明还会根据数据的特性进行数据的预处理，在这个过程中，我们会根据数据的属性信息、关系信息和实体信息，即主题，数据重合度和特征信息对不同的数据存储在不同的数据库中，这是为了便于对数据进行的处理，更容易通过共指消解和实体消歧技术进行数据融合。在这个时候因为现有技术都是直接的存储，不会进行时间标记，容易造成数据是空的，或者数据缺陷，但是本发明会进行时间戳的标记，去存储不同数据文本的语句集合。因为存储的是语句，不是数据包，就能判断数据是不是空的和数据缺陷。

上述技术方案的有益效果在于：本发明能够根据时间戳去检查数据是否存在缺陷，可以防止数据数据出现缺陷，导致知识图谱的更新是存在差异的。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种知识图谱的构建更新方法，其特征在于，包括：

抽取所述语句集合中的属性信息、关系信息和实体信息；

根据验证后的融合信息，构建知识图谱，并对所述知识图谱进行更新；

所述根据验证后的融合信息，构建知识图谱，并对所述知识图谱进行更新包括：

将所述验证后的融合信息进行质量评估还包括；

根据所述知识图谱，基于知识推理，获取推理数据，并将所述推理数据进行质量评估，根据评估后的推理数据更新所述知识图谱；

所述根据评估后的推理数据更新所述知识图谱包括：

步骤1：将所述知识图谱数据在空间坐标系中进行分类，并构建知识图谱的扩展评估模型：

其中，表示知识图谱的数据的分类数，/>是一个整数，/>；/>表示知识图谱的第/>类数据指示在/>点的原数据的数据特征，/>表示知识图谱的第/>类数据在点的扩展数据特征，/>表示知识图谱的第/>类数据在/>点幅度值；/>点为每类知识图谱的数据在空间坐标系上的坐标点；

步骤2：在推理扩展模型中重复推理数据，确定原知识图谱的评估模型，并确定评估比/>：

;

步骤3，将所述评估比带入预设的傅里叶阈值模型，得到更新判断模型/>；

其中，表示第/>类数据在/>点的傅里叶系数，/>表示第/>类数据在/>点的长度，表示第/>类数据在/>点的占用空间大小；

当大于1的时候，表示评估后的推理数据能够更新所述知识图谱；

当小于1的时候，表示评估后的推理数据不能够更新所述知识图谱。

2.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述对输入的非结构化数据或半结构化数据的数据文本进行分词处理，确定语句集合，包括以下步骤：

将所述过滤文本通过HanLP分词处理，确定分词信息；

根据所述分词信息，确定语句集合。

3.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述抽取所述语句集合中的属性信息、关系信息和实体信息，包括：

将所述语句集合以句子为单位进行遍历处理，确定遍历分词集合；

根据所述遍历分词集合，确定实体信息；其中，

4.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述抽取所述语句集合中的属性信息、关系信息和实体信息，还包括：

根据所述关系信息，通过预设的图数据库保存关系本体信息。

5.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述通过共指消解和实体消歧技术将所述属性信息、关系信息和实体信息进行融合处理，确定融合信息，并基于预设的结构化数据和第三方知识库，验证所述融合信息，包括：

当所述融合信息为真实信息时，保存确定所述融合信息；

6.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述方法还包括：

根据所述语句集合，判断所述语句集合中的关键字；

当所述语句集合存在关键字时，抽取实体信息；

当所述语句集合不存在关键字时，执行无实体处理；其中，

所述无实体处理包括：

遍历所述语句集合，确定遍历分词前单词的词性信息；

根据所述第一语句集合，确定实体信息集合。

7.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述方法还包括：

判断过程包括如下步骤：

获取所述语句集合中的关键字；

根据所述关键字，获取事件信息；

对所述事件信息的完整度进行评分；

将所述评分与预设的评分阈值进行比较，

当所述评分小于所述评分阈值时，保存所述语句集合。

8.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述方法还包括：

获取所述数据文本的获取时间，并建立时间戳；

9.根据权利要求1所述的一种知识图谱的构建更新方法，其特征在于：所述方法还包括：

根据所述时间戳表，将不同数据文本的语句集合进行存储。