CN118093604A

CN118093604A - 知识图谱更新方法、装置、电子设备及存储介质

Info

Publication number: CN118093604A
Application number: CN202311854066.2A
Authority: CN
Inventors: 何伟; 金鑫; 谢水庚; 刘璐; 郝志强
Original assignee: Beijing Casicloud Co ltd
Current assignee: Beijing Casicloud Co ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-05-28

Abstract

本发明提供一种知识图谱更新方法、装置、电子设备及存储介质，属于人工智能和知识管理技术领域，方法包括获取目标领域数据；基于预先调整的大型语言模型从目标领域数据中抽取目标领域知识；确定目标领域知识和待更新知识图谱的现有知识之间的知识冲突；根据知识冲突对目标领域知识进行冲突消解，将冲突消解后的目标领域知识整合至现有知识，完成知识图谱更新。本发明自动从目标领域数据源中获取目标领域数据，大幅减少了人工干预的需求，同时提高了知识图谱的时效性和准确性。设置大型语言模型抽取目标领域知识，能够理解和处理大量的自然语言数据，对复杂和多变的数据环境适应性较好。大型语言模型的训练样本十分充足，模型的准确性更高。

Description

知识图谱更新方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能和知识管理技术领域，尤其涉及一种知识图谱更新方法、装置、电子设备及存储介质。

背景技术

知识图谱作为一种结构化的知识表示方式，能够将复杂的数据和信息转化为易于理解和操作的形式。通过实体、属性和关系的图结构来表示和组织知识，为数据分析和决策支持提供了强大的工具。但知识图谱通常难以构建和更新维护，手动更新方法能够保证数据的高度准确性和可靠性，但效率极低，难以应对大数据量和快速更新的需求，高度依赖专业知识，成本高昂。半自动化更新方法结合自动化技术和人工审核，相对人工方法提高了效率，在一定程度上保持了数据的准确性和可靠性，但仍面临效率不足和对专业知识依赖度高的问题。基于规则的自动更新方法通过预定义的规则实现自动化更新，提高了大规模数据处理的能力，但规则的制定需要丰富的专业知识，难以涵盖所有情形，对复杂和多变的数据环境适应性较差。基于机器学习的方法通过从历史数据中自动学习和适应新模式，提供了处理复杂和多样化数据的可能性，然而这种方法需要大量训练数据来构建有效模型，并可能在数据质量参差不齐的情况下遭遇准确性问题。

发明内容

本发明提供一种知识图谱更新方法、装置、电子设备及存储介质，用以解决现有的领域知识图谱更新方法存在一系列局限性的缺陷。

本发明提供一种知识图谱更新方法，包括：

从待更新知识图谱对应的目标领域数据源中获取目标领域数据；

基于预先调整的大型语言模型从所述目标领域数据中抽取目标领域知识；

确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突；

根据所述知识冲突对所述目标领域知识进行冲突消解，将冲突消解后的所述目标领域知识整合至所述现有知识，完成知识图谱更新。

根据本发明提供的一种知识图谱更新方法，所述确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突，包括：

基于生成式语言模型的预设指令模板确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突，所述知识冲突包括属性冗余、属性冲突、关系冗余和关系冲突。

根据本发明提供的一种知识图谱更新方法，所述根据所述知识冲突对所述目标领域知识进行冲突消解，包括：

若所述知识冲突对应的所述目标领域知识的属性与所述现有知识的属性之间的相似度大于属性相似度阈值，随机抽取所述目标领域知识进行冲突消解，否则将所述目标领域知识加入属性冲突消解候选集；

若所述知识冲突对应的所述目标领域知识的关系与所述现有知识的关系之间的相似度大于关系相似度阈值，随机抽取所述目标领域知识进行冲突消解，否则将所述目标领域知识加入关系冲突消解候选集。

根据本发明提供的一种知识图谱更新方法，还包括：

基于预设专家标注和预设冲突消解规则中的至少一个对所述属性冲突消解候选集或所述关系冲突消解候选集进行选择消解。

根据本发明提供的一种知识图谱更新方法，所述将冲突消解后的所述目标领域知识整合至所述现有知识，包括：

根据预设权重对冲突消解后的所述目标领域知识进行加权评分，得到目标领域知识评分；

根据所述目标领域知识评分优先级将所述目标领域知识整合至所述现有知识。

根据本发明提供的一种知识图谱更新方法，所述从待更新知识图谱对应的目标领域数据源中获取目标领域数据，包括：

从待更新知识图谱对应的目标领域数据源中获取多源实时数据；

对所述多源实时数据进行清洗、去噪和标准化处理，得到所述目标领域数据。

根据本发明提供的一种知识图谱更新方法，还包括：

基于预设评估指标对更新后的所述知识图谱进行评估，基于评估结果对所述知识图谱进行调整和优化。

本发明还提供一种知识图谱更新装置，包括：

获取模块，用于从待更新知识图谱对应的目标领域数据源中获取目标领域数据；

抽取模块，用于基于预先调整的大型语言模型从所述目标领域数据中抽取目标领域知识；

确定模块，用于确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突；

更新模块，用于根据所述知识冲突对所述目标领域知识进行冲突消解，将冲突消解后的所述目标领域知识整合至所述现有知识，完成知识图谱更新。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述知识图谱更新方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述知识图谱更新方法。

本发明提供的知识图谱更新方法、装置、电子设备及存储介质，从待更新知识图谱对应的目标领域数据源中获取目标领域数据；基于预先调整的大型语言模型从所述目标领域数据中抽取目标领域知识；确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突；根据所述知识冲突对所述目标领域知识进行冲突消解，将冲突消解后的所述目标领域知识整合至所述现有知识，完成知识图谱更新。本发明自动从目标领域数据源中获取目标领域数据，大幅减少了人工干预的需求，同时提高了知识图谱的时效性和准确性。设置大型语言模型抽取目标领域知识，能够理解和处理大量的自然语言数据，对复杂和多变的数据环境适应性较好。大型语言模型的训练样本十分充足，模型的准确性更高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的知识图谱更新方法的流程示意图；

图2是本发明提供的获取目标领域数据的流程示意图；

图3是本发明提供的冲突消解的流程示意图；

图4是本发明提供的目标领域知识整合流程示意图；

图5是本发明提供的知识图谱更新装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

图1是本发明提供的知识图谱更新方法的流程示意图，如图1所示，本发明提供一种知识图谱更新方法，包括：

步骤S110，从待更新知识图谱对应的目标领域数据源中获取目标领域数据；具体的，可通过自动程序从目标领域数据源中定向抓取目标领域数据。

目标领域可以为信息快速变化的领域，比如技术、医学和金融，数据源可以包括领域资讯新闻网站、专业文章数据库、社交媒体平台等，不同的领域对应的数据源可以不同。为此可预先构建领域和数据源映射表，根据待更新知识图谱所属的领域，确定对应的数据源，从数据源中获取目标领域数据。

步骤S120，基于预先调整的大型语言模型从所述目标领域数据中抽取目标领域知识；大型语言模型为BERT模型或UIE模型，BERT模型是一种基于Transformer架构的预训练语言模型，全称是Bidirectional Encoder Representations from Transformers，意为双向编码器变换器表示。Bert模型可以在大规模语料库上进行无监督的预训练，然后在特定任务上进行微调，适用于多种自然语言处理任务。UIE模型是通用信息抽取模型，英文全称是Universal Information Extraction，该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模，并使得不同任务间具备良好的迁移和泛化能力。

大型语言模型的调整包括基于特定领域的训练数据对BERT模型或UIE模型进行训练，使得BERT模型或UIE模型适应特定领域的语境和术语。

目标领域知识包括目标领域的实体、属性和关系。

步骤S130，确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突；现有知识指的是待更新知识图谱的实体、属性和关系。属性冗余和属性冲突用于表征相同实体和属性但值不同的情况，关系冗余和关系冲突用于表征相同实体对但关系类型不同的情况。

知识冲突源自不同来源的知识数据、不同的数据采集方式、数据质量问题等。知识冲突可能表现为以下几种情况：

实体冲突：同一实体被不同的名称表示，或者同一实体被赋予了不同的属性值。

关系冲突：不同的实体之间的关系存在矛盾或不一致，比如两个实体之间同时存在"父母"和"子女"的关系。

属性值冲突：同一实体的属性值不一致，比如一个人的出生日期在不同的数据源中有不同的数值。

步骤S140，根据所述知识冲突对所述目标领域知识进行冲突消解，将冲突消解后的所述目标领域知识整合至所述现有知识，完成知识图谱更新。

冲突消解是指在知识图谱构建和维护过程中，解决不同来源、不同结构或不一致的知识表示之间的冲突。知识图谱中的冲突可能包括实体之间的关系冲突、属性值的不一致、实体分类的歧义等问题。

为了解决这些冲突，可以采取以下方法：

一致性检查：通过对知识图谱进行一致性检查，发现并标识出现的冲突。

冲突解决策略：制定冲突解决策略，例如选择合适的知识融合算法、冲突解决规则等，以解决冲突。

知识融合：将不同来源的知识进行融合，解决冲突，保证知识图谱的一致性和准确性。

人工干预：对于一些复杂的冲突，可能需要人工干预，进行手动修正或者人工审核。

具体的，将冲突消解后的所述目标领域知识整合至所述现有知识包括将冲突消解后的所述目标领域知识的属性和关系整合到现有知识中，实现知识图谱结构和内容的扩展和更新。

可以理解的是，本发明自动从目标领域数据源中获取目标领域数据，大幅减少了人工干预的需求，同时提高了知识图谱的时效性和准确性。设置大型语言模型抽取目标领域知识，能够理解和处理大量的自然语言数据，对复杂和多变的数据环境适应性较好。大型语言模型的训练样本十分充足，模型的准确性更高。

图2是本发明提供的获取目标领域数据的流程示意图，如图2所示，在上述实施例的基础上，作为一个可选的实施例，所述从待更新知识图谱对应的目标领域数据源中获取目标领域数据，包括：

步骤S210，从待更新知识图谱对应的目标领域数据源中获取多源实时数据；具体的，基于爬虫技术和API接口针对特定领域相关的数据源进行定向抓取，从多个数据源(如领域资讯新闻网站、专业文章数据库、社交媒体平台等)提取多源实时数据。

步骤S220，对所述多源实时数据进行清洗、去噪和标准化处理，得到所述目标领域数据。

对所述多源实时数据进行清洗、去噪和标准化处理，包括文本分段、去除无关信息等步骤。

可以理解的是，本发明通过爬虫技术和API接口自动抓取数据，减少人工干预，通过对多源实时数据进行清洗、去噪和标准化处理，提高了数据质量。

在上述实施例的基础上，作为一个可选的实施例，所述确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突，包括：

指令模板通常用于构建生成式语言模型(比如GPT等)中的自然语言理解(NLU)。在NLU中，指令模板可以帮助识别输入的指令或命令，并提取关键信息。具体的，可将目标领域知识和现有知识输入至指令模板中，指令模板提取属性和关系的关键信息，基于关键信息的相似度判断同一实体对应的属性和关系属于属性冗余、属性冲突、关系冗余和关系冲突中的哪一种。

可以理解的是，本发明通过生成式语言模型的预设指令模板实现知识冲突识别，识别知识图谱中可能存在的冲突，对识别出的冲突进行分类，方便后续采取相应的消解策略。生成式语言模型的训练样本充足，准确性更高，还能避免大量标注和模型训练工作，降低成本。

图3是本发明提供的冲突消解的流程示意图，如图3所示，在上述实施例的基础上，作为一个可选的实施例，所述根据所述知识冲突对所述目标领域知识进行冲突消解，包括：

步骤S310，若所述知识冲突对应的所述目标领域知识的属性与所述现有知识的属性之间的相似度大于属性相似度阈值，随机抽取所述目标领域知识进行冲突消解，否则将所述目标领域知识加入属性冲突消解候选集；

具体的，大型语言模型根据语义相似度进行属性冲突消解。设定属性相似度阈值k1，对于与原有属性相似度大于k1的属性冲突值集合，进行随机抽取消解冲突，相似度低于k1的加入属性冲突消解候选集，缩小冲突消解范围。对于属性冗余，直接消除。

步骤S320，若所述知识冲突对应的所述目标领域知识的关系与所述现有知识的关系之间的相似度大于关系相似度阈值，随机抽取所述目标领域知识进行冲突消解，否则将所述目标领域知识加入关系冲突消解候选集。

具体的，利用大型语言模型进一步判断关系冲突类型，进而进行关系冲突消解。设定关系相似度阈值k2，对于与原有关系相似度大于k2的关系集合进行随机抽取消解冲突；相似度低的关系冲突加入冲突消解候选集，缩小冲突消解范围。对于冗余关系，直接消除。

可选的，本发明提供的一种知识图谱更新方法还包括：

可以理解的是，本发明通过大型语言模型进行知识冲突消解，大型语言模型的训练样本充足，准确性更高，还能避免大量标注和模型训练工作，降低成本。

图4是本发明提供的目标领域知识整合流程示意图，如图4所示，在上述实施例的基础上，作为一个可选的实施例，所述将冲突消解后的所述目标领域知识整合至所述现有知识，包括：

步骤S410，根据预设权重对冲突消解后的所述目标领域知识进行加权评分，得到目标领域知识评分；

具体的，根据来源可靠性、内容新颖性为新知识计算评分，如政府网站、学术期刊等来源的知识可靠性高于普通新闻网站，较新的研究成果或新闻事件得分较高，根据不同来源、不同时效性制作评分量表，同时设定评分权重，如来源可靠性权重60％，新颖性权重40％，根据以下公式计算知识的加权评分：

总评分＝来源可靠性得分*来源可靠性权重+内容新颖性得分*内容新颖性权重；

步骤S420，根据所述目标领域知识评分优先级将所述目标领域知识整合至所述现有知识。

具体的，将目标领域知识根据评分高低放入优先级队列，高优先级的知识先整合。整合时通过对新旧知识点的实体和关系映射，识别相同实体和关系中的差异，在更新策略上，高相似度属性、关系根据更新策略选择更新操作、新关系，对于冲突消解候选集，进一步结合领域专家标注、冲突消解规则进行选择消解。

以医疗健康图谱为例，实体可以是疾病、症状、药物或治疗方法，而关系可能表示疾病和症状之间的关联，药物和治疗适用的疾病等。旧知识点包含疾病—流感、症状—发烧、关系—流感导致发烧，新知识点包含疾病—流感、症状—持续高烧、关系—流感导致持续高烧，根据策略—症状具化知识更新进行知识点更新。

可以理解的是，本发明通过加权评分优先级实现目标领域知识整合，实现了知识图谱结构和内容的扩展和更新。

在上述实施例的基础上，作为一个可选的实施例，本发明提供的一种知识图谱更新方法还包括：

具体的，预设评估指标可包括准确率、覆盖率、一致性等，可定期对更新后的所述知识图谱进行评估，基于评估结果对所述知识图谱进行调整和优化，包括修正错误、更新过时信息等。

可以理解的是，本发明定期对知识图谱进行全面的质量评估，基于评估结果自动调整和更新知识图谱，同时结合评估反馈对整个系统进行迭代优化，包括模型参数的调整和数据处理流程的改进，以提高系统的整体性能和准确性。

下面对本发明提供的知识图谱更新装置进行描述，下文描述的知识图谱更新装置与上文描述的知识图谱更新方法可相互对应参照。

图5是本发明提供的知识图谱更新装置的结构示意图，如图5所示，本发明还提供一种知识图谱更新装置，包括：

获取模块510，用于从待更新知识图谱对应的目标领域数据源中获取目标领域数据；获取模块510从指定的领域相关数据源中收集数据，执行数据的预处理工作，确保后续处理的数据质量和一致性。

抽取模块520，用于基于预先调整的大型语言模型从所述目标领域数据中抽取目标领域知识；抽取模块520利用自然语言处理技术和机器学习算法从采集处理后的数据中提取关键实体、属性、关系等。

确定模块530，用于确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突；确定模块530利用大型语言模型对预处理后的数据进行分析，识别知识图谱中可能存在的冲突，对识别出的冲突进行分类，方便后续采取相应的消解策略。

更新模块540，用于根据所述知识冲突对所述目标领域知识进行冲突消解，将冲突消解后的所述目标领域知识整合至所述现有知识，完成知识图谱更新。

作为一个实施例，所述确定模块530还用于：

作为一个实施例，所述更新模块540还用于：

作为一个实施例，所述获取模块510还用于：

作为一个实施例，还包括：

评估模块，用于基于预设评估指标对更新后的所述知识图谱进行评估，基于评估结果对所述知识图谱进行调整和优化。评估模块定期对知识图谱进行全面的质量评估，基于评估结果自动调整和更新知识图谱，同时结合评估反馈对整个系统进行迭代优化，包括模型参数的调整和数据处理流程的改进，以提高系统的整体性能和准确性。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行知识图谱更新方法，该方法包括：

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的知识图谱更新方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的知识图谱更新方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种知识图谱更新方法，其特征在于，包括：

2.根据权利要求1所述的知识图谱更新方法，其特征在于，所述确定所述目标领域知识和所述待更新知识图谱的现有知识之间的知识冲突，包括：

3.根据权利要求2所述的知识图谱更新方法，其特征在于，所述根据所述知识冲突对所述目标领域知识进行冲突消解，包括：

4.根据权利要求3所述的知识图谱更新方法，其特征在于，还包括：

5.根据权利要求3所述的知识图谱更新方法，其特征在于，所述将冲突消解后的所述目标领域知识整合至所述现有知识，包括：

6.根据权利要求1所述的知识图谱更新方法，其特征在于，所述从待更新知识图谱对应的目标领域数据源中获取目标领域数据，包括：

7.根据权利要求1所述的知识图谱更新方法，其特征在于，还包括：

8.一种知识图谱更新装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述知识图谱更新方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识图谱更新方法。