CN114254129A - 更新知识图谱的方法、装置和可读存储介质 - Google Patents
更新知识图谱的方法、装置和可读存储介质 Download PDFInfo
- Publication number
- CN114254129A CN114254129A CN202111679573.8A CN202111679573A CN114254129A CN 114254129 A CN114254129 A CN 114254129A CN 202111679573 A CN202111679573 A CN 202111679573A CN 114254129 A CN114254129 A CN 114254129A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- screened
- knowledge content
- content
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了更新知识图谱的方法、装置和可读存储介质,包括以下步骤:选择初始时间节点以获取初始知识获取模型和初始知识图谱;根据初始知识图谱包含的初始知识内容设定数据采集周期;根据数据采集周期获取待筛选信息数据集;利用初始知识获取模型从待筛选信息数据集中获取待筛选知识内容;基于待筛选知识内容结合问答机制获取更新知识内容;根据更新知识内容,构建更新后知识图谱,完成知识图谱的更新,本方案降低了用户对知识进行标注的难度避免了对于重复的知识内容可能出现的反复标注的情况,提高了知识内容的标注效率,以及知识图谱的更新效率。
Description
技术领域
本发明属于计算机技术领域,具体涉及更新知识图谱的方法、装置和可读存储介质。
背景技术
随着科技的发展,人工智能逐渐成为计算机领域的发展方向,即人类的目标是生产出一种新的、能以人类智能相似的方式做出反应的智能机器。为实现普遍意义的智能,机器需要有一个“大脑”存储各种各样的知识,这种知识在计算机领域被称为知识图谱;
知识图谱在建立后,随着时间的推移,知识图谱中的知识内容会进行迭代更新,迭代前的知识内容不满足知识图谱对于及时性的需求,所以还需要对知识图谱中的知识内容进行更新,目前主要采用定时完全替代的更新方式,即定时获取网络中最新的数据集,然后对数据集的文本内容进行标注,生成新的知识内容后添加到原始的知识内容内,在对原始所有的知识内容完成添加,就完成了整个知识图谱的添加操作;
因此,在现有的这种知识图谱更新方法中,完全摒弃了历史知识图谱中的所有知识内容,但并不是所有的历史知识内容都需要更新,如果完全替换历史知识图谱,就会浪费大量算力资源和时间去替换重复的实体数据和关系数据等,造成资源浪费且达不到知识图谱的即时性需求。
并且,在更新知识图谱时,需要对知识内容进行标注,传统的标注方法是根据定义的知识类型,使用标注工具在非结构化数据对所有知识内容人工进行大量标注,在更新知识图谱的过程中,对于重复的知识内容可能出现反复标注的情况,而且人工标注的难度较大,导致知识内容的标注效率下降,降低更新效率。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种更新知识图谱的方法、装置和可读存储介质,解决以下的问题:
1、现有的这种知识图谱更新方法中,完全摒弃了历史知识图谱中的所有知识内容,浪费大量算力资源和时间,造成资源浪费且达不到知识图谱的及时性需求。
2、传统的标注方法是根据定义的知识类型,使用标注工具在非结构化数据对所有知识内容人工进行大量标注,在更新知识图谱的过程中,对于重复的知识内容可能出现反复标注的情况,而且人工标注的难度较大,导致知识内容的标注效率下降,降低更新效率。
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明采用了如下的技术方案:
更新知识图谱的方法,包括以下步骤:
选择初始时间节点以获取初始知识获取模型和初始知识图谱;
根据初始知识图谱包含的初始知识内容设定数据采集周期;
根据数据采集周期获取待筛选信息数据集;
利用初始知识获取模型从待筛选信息数据集中获取待筛选知识内容;
基于待筛选知识内容结合问答机制获取更新知识内容;
根据更新知识内容,构建更新后知识图谱,完成知识图谱的更新。
在一些实施例中,待筛选信息数据集包括语料数据集、图片数据集和视频数据集中的至少一种;
在一些实施例中,还包括:
初始知识内容包括的实体知识内容和关系知识内容;
根据实体知识内容的变化周期得到实体更新周期;
根据关系知识内容的变化周期得到关系更新周期;
数据采集周期的设定方式包括完整性数据采集周期和实时性数据采集周期;
完整性数据采集周期的设定方式为:将实体更新周期和关系更新周期进行比较,将时间最长的更新周期设定为完整性数据采集周期;
实时性数据采集周期的设定方式为:将实体更新周期和关系更新周期进行比较,将时间最短的更新周期设定为实时性数据采集周期。
在一些实施例中,还包括:
利用问答机制从待筛选知识内容中获取筛除后知识内容,包括:
将待筛选知识内容和初始知识内容进行对比,生成用于判断重复知识内容的第一待确认问题;
向用户推送所述第一待确认问题,以根据用户的作答结果得到筛除后知识内容。
在一些实施例中,还包括:
将待筛选知识内容和初始知识内容进行对比,生成判断重复知识内容的第一待确认问题,包括:
从待筛选知识内容和初始知识内容中分别提取同属性关键词;
根据同属性关键词生成第一待确认问题。
在一些实施例中,还包括:
基于筛除后的知识内容结合问答机制获取更新知识内容,包括:
根据筛除后知识内容,生成用于更新知识内容的第二待确认问题;
向用户推送第二待确认问题,以根据用户的作答结果获取更新知识内容。
在一些实施例中,还包括:
根据筛除后知识内容,生成用于更新知识内容的第二待确认问题,包括:
根据实体知识内容和关系知识内容从筛除后知识内容中分别提取对应属性关键词;
根据对应属性关键词和同属性关键词生成第二待确认问题。
在一些实施例中,还包括:
初始知识模型包括:规则模型、字典模型、统计学习模型、机器学习模型,语言模型、条件随机场+神经网络组合语言模型、few-shot语言模型和 RNN LSTM语言模型,用来从待筛选信息数据集中获取待筛选知识内容;
在一些实施例中,还包括:
将初始知识内容中包含的实体知识和关系知识按类型进行归类,得到实体知识内容和关系知识内容。
在一些实施例中,还包括:
根据实体知识内容的变化周期,得到的实体更新周期的周期更新单位可以为second/min/hour/day/month/year;
根据关系知识内容的变化周期,得到的关系更新周期的周期更新单位可以为second/min/hour/day/month/year。
在一些实施例中,还包括:
当数据采集周期的设定方式为完整性数据采集周期时,实体知识内容和关系知识内容各自均至少进行一次更新;
当数据采集周期的设定方式为实时性数据采集周期时,至少对实体知识内容和关系知识内容中的其中一种知识内容进行一次更新。
在一些实施例中,同属性关键词包括:实体属性关键词和关系属性关键词;
对于待筛选知识内容和初始知识内容的同属性关键词提取方式可以为:
初始知识内容中的实体属性关键词为A,待筛选知识内容中的实体属性关键词为A1;
初始知识内容中的关系属性关键词为C,待筛选知识内容中的关系属性关键词为C1;
在一些实施例中,根据同属性关键词生成第一待确认问题,包括:
根据提取到的实体属性关键词A和A1,关系属性关键词为C和C1,分别生成第一待确认问题,包括为:实体属性关键词重复判断问句和关系属性关键词重复判断问句。
在一些实施例中,还包括:
向用户推送第一待确认问题,以根据用户的作答结果生成筛选知识内容;
基于实体属性关键词重复判断问句和关系属性关键词重复判断问句分别设定有对应答案,并且为用户提供作答界面,在作答界面上展示上述问句,让用户根据上述问句选择对应答案;
根据对应答案可以分别对实体关键词A和A1以及关系关键词C和C1进行分类,根据分类结果得到筛选知识内容,相当于对初始知识内容和待筛选知识内容中的不重复内容进行筛选。
在一些实施例中,根据实体知识内容和关系知识内容从筛除后知识内容中分别提取对应属性关键词,包括:
筛除后知识内容中实体知识内容的对应实体属性关键词为A2,
筛除后知识内容中关系知识内容的对应关系属性关键词为C2;
在一些实施例中,根据对应属性关键词和同属性关键词生成第二待确认问题,包括:
根据提取到的对应实体属性关键词A2和实体属性关键词A,对应关系属性关键词C2和关系属性关键词C,分别生成第二待确认问题,包括为:实体属性关键词更新问句和关系属性关键词更新问句。
在一些实施例中,向用户推送第二待确认问题,以根据用户的作答结果获取更新知识内容,包括:
基于实体属性关键词更新问句和关系属性关键词更新问句分别设定有对应选项,并且为用户提供选择界面,在选择界面上展示上述问句,让用户根据上述问句得出选项结果;
根据选项结果可以得出:
添加对应实体属性关键词/添加对应关系属性关键词;
根据对应实体属性关键词/对应关系属性关键词的添加,对初始知识内容进行更新,得到更新知识内容;
第二个方面,本公开实施例还公开了一种更新知识图谱的装置,包括:
初始获取模块,用于选择初始时间节点以获取初始知识获取模型和初始知识图谱;
周期设定模块,用于根据初始知识图谱包含的初始知识内容设定数据采集周期;
数据采集模块,用于根据数据采集周期获取待筛选信息数据集;
知识提取模块,用于利用所述初始知识获取模型从所述待筛选信息数据集中获取待筛选知识内容,并基于所述待筛选知识内容结合所述问答机制获取更新知识内容;
第一问答机制获取模块,用于利用问答机制从待筛选知识内容中获取筛除后知识内容;
第二问答机制获取模块,用于基于所述筛除后的知识内容结合所述问答机制获取更新知识内容。
知识图谱构建模块,用于根据更新知识内容,构建更新后知识图谱,完成知识图谱的更新。
第三个方面,本公开实施例还公开了一种计算机装置,计算机装置包括:
处理器,处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。
第四个方面,本公开实施例还公开了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现上述任一方法的步骤。
本公开实施例提供的技术方案,其中先获取初始知识获取模型和初始知识图谱,根据初始知识图谱包含的初始知识内容设定数据采集周期,根据数据采集周期获取待筛选信息数据集,利用初始知识获取模型从待筛选信息数据集中获取待筛选知识内容,将待筛选知识内容和初始知识内容进行对比,生成用于判断重复知识内容的第一待确认问题,根据用户的作答结果得到筛除后知识内容,根据筛除后知识内容,生成用于更新知识内容的第二待确认问题,向用户推送第二待确认问题,以根据用户的作答结果获取更新知识内容,根据所述更新知识内容,构建更新知识图谱,完成对知识图谱的更新。
本公开实施例的上述技术方案,一方面,在现有的这种知识图谱更新方法中提出了一种新的更新方式,在不摒弃历史知识图谱中的所有知识内容的前提下,只将需要更新的知识内容对历史的知识内容进行添加/并列保留,节约了大量算力资源和时间,并且设定了更新周期,保证了知识图谱更新的即时性的需求;另一方面,将需要重复的知识内容转化第一待确认问题进行筛选,将需要更新的知识转化为第二待确认问题进行更新,将使用标注工具在非结构化数据对所有知识内容人工进行大量标注转化为多个问答机制,降低了用户对知识进行标注的难度避免了对于重复的知识内容可能出现的反复标注的情况,提高了知识图谱的更新效率。
附图说明
图1为本发明的更新知识图谱的方法的流程图。
图2为获得筛除后知识内容的流程图。
图3为获得更新后知识内容的流程图。
图4为本发明中更新知识图谱的装置的系统结构图。
附图标记:初始获取模块1,周期设定模块2,数据采集模块3,知识提取模块4,第一问答机制获取模块5,同属性关键词提取模块51,第一推送模块52,第二问答机制获取模块6,对应属性关键词提取模块61,第二推送模块62,知识内容更新模块63,知识图谱构建模块7。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制;相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1为本发明的更新知识图谱的方法的流程图,如图1所示:更新知识图谱的方法,包括以下步骤:
S100:选择初始时间节点以获取初始知识获取模型和初始知识图谱;
本步骤中的选择初始时间节点根据用户的时间需求,由小到大可以精确为秒/分/时/天/月/年,因为本方案中对于初始获取模型和初始知识图谱的获取需要满足即时性,所以根据用户的不同需求给出了精确的时间节点进行选择;
其中,在初始知识图谱中包括初始知识内容,初始知识内容中对知识内容的类型分类又可以分为实体知识内容和关系知识内容;初始知识获取模型是预先训练的基础知识获取模型,主要包括实体知识内容获取模型和关系知识内容获取模型,实体知识内容获取模型从信息数据集中提取实体知识内容,关系知识内容获取模型从信息数据集中提取关系知识内容。
S200:根据初始知识图谱包含的初始知识内容设定数据采集周期;
因为初始知识内容中对知识内容的类型分类又可以分为实体知识内容和关系知识内容,因为各个类型的知识内容在不同类型的知识事件中变化周期并不一致;
例如:在历史知识事件中,
实体知识内容包括:国家和城市等;
关系知识内容包括:
1427年-北京;
1928年-北平;
1949年-北京;
此时实体知识内容的变化周期分别为501年和21年;
因为选择的实体不同,所以,不同实体的变化周期不同,不同实体之间的关系的变化周期也不同,因此,在确定实体变化周期和关系变化周期前;
先确定实体,然后对实体进行属性抽取,从信息数据集中可以采集实体的属性信息,属性抽取能够从信息数据集中来汇集这些信息,实现对实体属性的完整勾画,然后再确定关系,因为在确定实体后,会得到离散的实体命名,为了得到语义信息,还需要从关系知识内容中提取实体之间的关联关系,通过关联关系将实体联系起来,信息数据集包括结构化数据、半结构化数据和非结构化数据,最后根据确定的实体以及对应的实体属性,确定当前实体知识内容的变化周期,根据确定的实体以及对应的实体属性,确定实体和实体之间的关系和关系属性,确定关系知识内容的变化周期。
S300:根据数据采集周期获取待筛选信息数据集;
根据上述确定的实体知识内容的变化周期和关系知识内容的变化周期,选择其中一个变化周期作为数据采集周期,即当前时间节点至下一次更新信息数据集时间的间隔;
因为需要对知识图谱的内容进行更新,所以需要获取新的信息数据集作为更新的基础,当达到下一次更新信息数据集的时间,就获取互联网中的信息数据集作为待筛选信息数据集,待筛选信息数据集包括结构化数据、半结构化数据和非结构化数据。
S400:利用初始知识获取模型从待筛选信息数据集中获取待筛选知识内容;
因为需要获取实体知识内容和关系知识内容,所以需要利用初始知识获取模型从待筛选信息数据集中先获取待筛选知识内容,初始知识获取模型为预先训练好的知识获取模型,它会从中提取待筛选实体知识内容和待筛选关系知识内容,待筛选实体知识内容和待筛选关系知识内容总称为待筛选知识内容。
S500:基于待筛选知识内容结合问答机制获取更新知识内容;
待筛选信息数据集包括结构化数据、半结构化数据和非机构化数据,在获取待筛选信息数据集时,待筛选信息数据集和初始信息数据集无法进行相似区分,所以需要从将待筛选信息数据集中获取待筛选知识内容,并且待筛选知识内容中包括待筛选实体知识内容和待筛选关系知识内容;
其中,待筛选实体知识内容中和初始知识内容中的实体知识内容必然存在相同/相似的实体知识内容,同理,待筛选关系知识内容和初始知识内容中的关系知识内容必然存在相同/相似的关系知识内容;
所以需要利用问答机制从待筛选知识内容相同/相似的实体知识内容和关系知识内容进行筛除,得到筛除后知识内容。
S600:根据更新知识内容,构建更新后知识图谱,完成知识图谱的更新。
筛除后知识内容也包括筛除后的实体知识内容和筛除后的关系知识内容,此时筛除后的实体知识内容和初始知识内容中的实体知识内容存在部分相同/相异实体知识内容,同理,筛除后的关系知识内容和初始知识内容中的关系知识内容存在部分相同/相异实体知识内容;
所以需要利用问答机制从筛除后知识内容进行判断,判断是否需要将其中的筛除后的实体知识内容和筛除后的关系知识内容对初始知识内容中的实体知识内容和关系知识内容进行添加/并列保留,然后实现对初始知识内容的更新,得到更新知识内容。
在一些实施例中,还包括:
数据采集周期的设定方式包括完整性数据采集周期和实时性数据采集周期;
完整性数据采集周期的设定方式为:将实体更新周期和关系更新周期进行比较,将时间最长的更新周期设定为完整性数据采集周期;
实时性数据采集周期的设定方式为:将实体更新周期和关系更新周期进行比较,将时间最短的更新周期设定为实时性数据采集周期。
基于上述原理可知,实体更新周期和关系更新周期会出现不同的情况,所以在确定实体更新周期和关系更新周期后,还要先确定数据采集周期的设定方式的为完整性数据采集周期/实时性数据采集周期;
例如,当实体更新周期为10天,关系更新周期为5天;
确定数据采集周期设定为完整性数据采集周期;
此时先将实体更新周期和关系更新周期进行比较,实体更新周期>关系更新周期,选择实体更新周期为完整性数据采集周期;
当选择实体更新周期执行更新时,因为实体更新周期为10天,互联网中的待筛选信息数据集包含的实体知识内容已经更新过1次,关系更新周期为5 天,互联网中的待筛选信息数据集包含的关系知识内容已经更新过2次,所以此时采集的待筛选信息数据集中至少包含有更新过1次的实体知识内容和更新过1次的关系知识内容,所以此次数据采集周期为完整性数据采集周期;
确定数据采集周期设定为实时性数据采集周期;
此时先将实体更新周期和关系更新周期进行比较,实体更新周期>关系更新周期,选择关系更新周期为实时性数据采集周期;
当选择关系更新周期执行更新时,因为实体更新周期为10天,互联网中的待筛选信息数据集包含的实体知识内容还未更新,但是关系更新周期为5 天,互联网中的待筛选信息数据集包含的关系知识内容更新了1次,所以此时采集的待筛选信息数据集中包含有更新过1次的关系知识内容,所以此次数据采集周期为实时性数据采集周期;
采用完整性数据采集周期进行数据采集可以保证待筛选信息数据集中的实体知识内容和关系知识内容均至少更新一次;
采用实时性数据采集周期进行数据采集可以保证待筛选信息数据集中的实体知识内容/关系知识内容进行过更新;
根据用户的需求对两种数据采集周期进行选择,可以保证在对数据采集的过程中获取的都是有更新价值的数据。
如图2所示:
S501:将待筛选知识内容和初始知识内容进行对比,生成用于判断重复知识内容的第一待确认问题。
进一步的,因为待筛选实体知识内容中和初始知识内容中的实体知识内容必然存在相同/相似的实体知识内容,同理,待筛选关系知识内容和初始知识内容中的关系知识内容必然存在相同/相似的关系知识内容;
所以待筛选知识内容和初始知识内容的对比过程实质上是其中的待筛选实体知识内容中和初始知识内容中的实体知识内容,以及,待筛选关系知识内容和初始知识内容中的关系知识内容的对比;
进一步的,当我们对实体进行属性抽取时,便已经从对应的信息数据集中采集了实体属性信息,所以我们可以分别从待筛选实体知识内容中和初始知识内容中的实体知识内容中确定各自对应的实体属性关键词,
提取关键词的方法可以为:基于TF-IDF的文本关键词提取方法、基于 TextRank的文本关键词提取方法、基于语义的关键词提取或基于LDA的关键词提取方法中的其中一种;
即初始知识内容中的实体属性关键词为A,待筛选知识内容中的实体属性关键词为A1;
初始知识内容中的关系属性关键词为C,待筛选知识内容中的关系属性关键词为C1;
以张三的经历为知识内容更新示例:
选择1999年为初始时间节点:
初始知识内容中的实体属性关键词A包括:张三、电子工业学院和信息技术发展有限公司等;
根据设定的数据采集周期并确定当前时间节点为数据采集周期的结束时间节点;
此时待筛选知识内容的实体属性关键词A1中不但包括A(张三、电子工业学院和信息技术发展有限公司等),还包括(经济理事会、生命科学基金会和互联网治理委员会等);
同理,因为在确定实体后,会得到离散的实体命名,为了得到语义信息,还需要从关系知识内容中提取实体之间的关联关系,通过关联关系将实体联系起来,所以采集了实体属性信息后便可以确定关系属性信息,所以我们可以分别从待筛选关系知识内容中和初始知识内容中的关系知识内容中确定各自对应的关系属性关键词,
初始知识内容中的关系属性关键词C包括:英文教师、总经理和CEO等;
待筛选知识内容的关系属性关键词C1不但包括C(英文教师、总经理和 CEO等),还包括(理事会会员、理事会主席、基金会理事和委员会成员等)
进一步的,根据A和A1以及C和C1,分别生成实体属性关键词重复/存在判断问句和关系属性关键词重复/存在判断问句:
例如:
实体属性关键词重复判断问句为:
A1中“张三”是否重复存在于A中?
A1中“经济理事会”是否重复存在于A中?
关系属性关键词重复判断问句为:
C1中“英文教师”是否重复存在于C中?
C1中“委员会成员”是否重复存在于C中?
S502:向用户推送第一待确认问题,以根据用户的作答结果生成筛选知识内容;
将上述问题接入到不同的应用场景或平台上,并且为用户提供作答界面,在作答界面上展示上述问句,使得普通用户就能够进行作答,让用户根据上述问句选择对应答案;
基于实体属性关键词重复判断问句和关系属性关键词重复判断问句分别设定有对应答案:
例如:
A1中“张三”是否重复存在于A中?
对应答案包括:重复/不重复。
A1中“经济理事会”是否重复存在于A中?
对应答案包括:存在/不存在。
根据对应答案可以分别对实体关键词A和A1以及关系关键词C和C1进行分类;
将对应答案为(不重复&不存在)的A1中的实体属性关键词归为筛选实体属性关键词;
将对应答案为(不重复&不存在)的C1中的关系属性关键词归为筛选关系属性关键词;
将筛选实体属性重复关键词和筛选关系属性重复关键词进行分类汇总,得到筛选知识内容;
S503:基于筛选知识内容与待筛选知识内容进行对比从而进行重复筛除,得到筛除后知识内容。
上述筛选知识内容是由用户进行问答机制确定的结果,其可信度较高,通过筛选知识内容与初始知识内容进行对比,从而进行知识内容筛选,得到筛除后知识内容。
同理,从待筛选信息数据集中,我们先确定实体,此时确定的实体都是在上述步骤S502带有筛选知识内容中的实体,然后对实体进行属性抽取,从待筛选信息数据集采集实体属性信息,属性抽取能够从信息数据集中来汇集这些信息,实现对实体属性的完整勾画,然后再确定关系,因为在确定实体后,会得到离散的实体命名,为了得到语义信息,还需要从关系知识内容中提取实体之间的关联关系,通过关联关系将实体联系起来,待筛选信息数据集包括结构化数据、半结构化数据和非结构化数据。
因为需要获取筛除后实体知识内容和筛除后关系知识内容,所以需要利用筛选知识内容中的实体知识内容和关系知识内容,与待筛选知识内容中的实体知识内容和关系知识内容进行对比,从而获取筛除后知识内容,
其中,筛除后实体知识内容中和初始知识内容中的实体知识内容对比存在的是不相同的实体知识内容,同理,筛除后关系知识内容和初始知识内容中的关系知识内容也是不相同的关系知识内容。
S601:根据筛除后知识内容,生成用于更新知识内容的第二待确认问题;
进一步的,因为筛除后实体知识内容中和初始知识内容中的实体知识内容对比存在的是不相同的实体知识内容,同理,筛除后关系知识内容和初始知识内容中的关系知识内容也是不相同的关系知识内容,
所以获取更新知识内容的过程实质上是筛选后实体知识内容中和初始知识内容中的实体知识内容,以及,筛选后关系知识内容和初始知识内容中的关系知识内容的添加/保留过程;
进一步的,根据实体知识内容和关系知识内容从筛除后知识内容中分别提取对应属性关键词;
进一步的,当我们对实体进行属性抽取时,便已经从对应的信息数据集中采集了实体属性信息,所以可以从筛选后实体知识内容中确定对应实体属性关键词,同理,因为在确定实体后,会得到离散的实体命名,为了得到语义信息,还需要从关系知识内容中提取实体之间的关联关系,通过关联关系将实体联系起来,所以采集了实体属性信息后便可以确定关系属性信息,所以从筛选后关系知识内容中确定对应关系属性关键词,
即筛除后知识内容中实体知识内容的对应实体属性关键词为A2,
筛除后知识内容中关系知识内容的对应关系属性关键词为C2;
同样,以张三的经历为知识内容更新示例:
筛除后知识内容的对应实体属性关键词为A2,A2中只包括(经济理事会、生命科学基金会和互联网治理委员会等)
筛除后知识内容的对应关系属性关键词为C2,C2中只包括(理事会会员、理事会主席、基金会理事和委员会成员等)
进一步的,根据对应实体属性关键词A2和实体属性关键词A,对应关系属性关键词C2和关系属性关键词C,分别生成第二待确认问题,包括为:实体属性关键词更新问句和关系属性关键词更新问句。
例如:
实体属性关键词更新问句为:
A2中“经济理事会”是否添加于A中?
关系属性关键词重复判断问句为:
C2中“委员会成员”是否添加于C中?
如图3所示,
S602:向用户推送第二待确认问题,以根据用户的作答结果获取更新知识内容。
将上述问题接入到不同的应用场景或平台上,并且为用户提供作答界面,在作答界面上展示上述问句,使得普通用户就能够进行作答,让用户根据上述问句选择对应选项;
例如:
A2中“经济理事会”是否添加于A中?
对应选项包括:添加/不添加/并列保留。
C2中“委员会成员”是否添加于C中?
对应选项包括:添加/不添加/并列保留。
对于选项-并列保留,因为在更新知识内容中还会出现特殊情况:
当实体属性关键词A中包括张三,但在后面的数据采集周期中张三改名为张四,此时对应实体属性关键词A2中便包括张四,但是“张三”和“张四”在语义上属于相同实体,这时不能只添加“张四”让其作为新的实体重新构建关系知识内容,所以增加并列保留选项,让其与“张三”成为同义并列实体,这样一来,在后续构建的知识图谱中,对“张四”进行关键词检索时,也能检索出与“张三”相关的知识内容。
同理,当关系属性关键词中出现上述特殊情况时,也增加并列保留选项,让C2中的对应关系属性关键词与C中的关系属性关键词成为同义并列关系。
将对应选项为(添加&并列保留)的A2中的对应实体属性关键词归为更新实体属性关键词;
将对应选项为(添加&并列保留)的C2中的对应关系属性关键词归为更新关系属性关键词;
根据更新实体属性关键词和更新关系属性关键词分类汇总构成更新知识内容。
进一步的,将更新知识内容与初始知识内容进行汇总,得到更新后知识内容,根据更新后知识内容构建更新后知识图谱,完成对知识图谱的更新。
如图4所示:
第二个方面,本公开实施例还公开了一种更新知识图谱的装置,包括:
初始获取模块,用于选择初始时间节点以获取初始知识获取模型和初始知识图谱;
周期设定模块,用于根据初始知识图谱包含的初始知识内容设定数据采集周期;
数据采集模块,用于根据数据采集周期获取待筛选信息数据集;
知识提取模块,用于利用初始知识获取模型从待筛选信息数据集中获取待筛选知识内容,并基于待筛选知识内容结合问答机制获取更新知识内容;
第一问答机制获取模块,用于利用问答机制从待筛选知识内容中获取筛除后知识内容;
第二问答机制获取模块,用于基于筛除后的知识内容结合问答机制获取更新知识内容;
知识图谱构建模块,用于根据更新知识内容,构建更新后知识图谱,完成知识图谱的更新。
在一些实施例中,还包括:
同属性关键词提取模块,用于从待筛选知识内容和初始知识内容中分别提取同属性关键词;
第一推送模块,用于根据同属性关键词生成第一待确认问题;
筛选知识内容生成模块,用于根据用户的作答结果生成筛选知识内容。
在一些实施例中,同属性关键词提取模块,用于执行如下至少一种:
在初始知识内容中提取实体属性关键词A,在待筛选知识内容中提取实体属性关键词A1;
在初始知识内容中提取关系属性关键词C,在待筛选知识内容中提取关系属性关键词C1。
在一些实施例中,第二问答机制获取模块中,还包括:
对应属性关键词提取模块,用于根据实体知识内容和关系知识内容从筛除后知识内容中分别提取对应属性关键词;
第二推送模块,用于根据对应属性关键词和同属性关键词生成第二待确认问题;
知识内容更新模块,用于根据对应属性关键词对同属性关键词的添加和/ 或对应属性关键词和同属性关键词的并列保留,对初始知识内容进行更新,得到更新知识内容。
在一些实施例中,对应属性关键词提取模块,用于执行如下至少一种:
从筛除后知识内容中提取实体知识内容的对应实体属性关键词A2,
从筛除后知识内容中提取关系知识内容的对应关系属性关键词C2。
在一些实施例中,第一推送模块和第二推送模块用于通过文本方式、图像方式或语音播报方式中的至少一种并推送给至少一个用户进行作答;
在一些实施例中,还包括输入模块,用于通过键盘方式、鼠标输入方式、触控输入方式、语音输入方式或体感输入方式中的任意一种获取用户的作答结果。
第三方面,本发明实施例提供了一种计算机装置,计算机装置包括:处理器,处理器用于执行存储器中存储的计算机程序时实现如上述构建知识图谱的方法的步骤。处理器可以是中央处理单元(CPU)或者具有数据处理能力和 /或指令执行能力的其他形式的处理单元,并且可以控制计算机中的其他组件以执行期望的功能。存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令,以实现上文的本申请的各个实施例的方法步骤以及/或者其他期望的功能。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现如上更新知识图谱的方法的步骤。
除了上述方法和装置以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。
计算机程序产品可以以一种或多种程序设计语言的意组合来编写用于执行本发明实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表) 包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.更新知识图谱的方法,其特征在于:包括以下步骤:
选择初始时间节点以获取初始知识获取模型和初始知识图谱;
根据所述初始知识图谱包含的初始知识内容设定数据采集周期;
根据所述数据采集周期获取待筛选信息数据集;
利用所述初始知识获取模型从所述待筛选信息数据集中获取待筛选知识内容;
基于所述待筛选知识内容结合所述问答机制获取更新知识内容;
根据所述更新知识内容,构建更新后知识图谱,完成知识图谱的更新。
2.根据权利要求1所述的更新知识图谱的方法,其特征在于:所述基于所述待筛选知识内容结合所述问答机制获取更新知识内容包括:
利用问答机制从待筛选知识内容中获取筛除后知识内容;
基于所述筛除后的知识内容结合所述问答机制获取更新知识内容。
3.根据权利要求1或2所述的更新知识图谱的方法,其特征在于:所述初始知识内容包括实体知识内容和关系知识内容;
所述设定的数据采集周期包括完整性数据采集周期和实时性数据采集周期;
所述根据所述初始知识图谱包含的初始知识内容设定数据采集周期包括:
根据所述实体知识内容的变化周期得到实体更新周期,以及,根据所述关系知识内容的变化周期得到关系更新周期;
将所述实体更新周期和关系更新周期进行比较,将时间最长的更新周期设定为完整性数据采集周期;
将所述实体更新周期和关系更新周期进行比较,将时间最短的更新周期设定为实时性数据采集周期。
4.根据权利要求2所述的更新知识图谱的方法,其特征在于:所述利用问答机制从待筛选知识内容中获取筛除后知识内容,包括:
将所述待筛选知识内容和所述初始知识内容进行对比,生成用于判断重复知识内容的第一待确认问题;
向用户推送所述第一待确认问题,以根据用户的作答结果生成筛选后知识内容。
5.根据权利要求4所述的更新知识图谱的方法,其特征在于:所述将所述待筛选知识内容和所述初始知识内容进行对比,生成判断重复知识内容的第一待确认问题,包括:
从所述待筛选知识内容和所述初始知识内容中分别提取同属性关键词;
根据所述同属性关键词生成第一待确认问题。
6.根据权利要求4所述的更新知识图谱的方法,其特征在于:所述基于所述筛除后的知识内容结合所述问答机制获取更新知识内容,包括:
根据所述筛除后的知识内容,生成第二待确认问题;
向用户推送所述第二待确认问题,以根据用户的作答结果获取更新知识内容。
7.根据权利要求6所述的更新知识图谱的方法,其特征在于:所述根据所述待筛选知识内容,生成第二待确认问题,包括:
根据实体知识内容和关系知识内容从待筛选知识内容中分别提取对应属性关键词;
根据所述对应属性关键词和所述同属性关键词生成第二待确认问题。
8.一种更新知识图谱的装置,其特征在于:包括:
初始获取模块,用于选择初始时间节点以获取初始知识获取模型和初始知识图谱;
周期设定模块,用于根据所述初始知识图谱包含的初始知识内容设定数据采集周期;
数据采集模块,用于根据所述数据采集周期获取待筛选信息数据集;
知识提取模块,用于利用所述初始知识获取模型从所述待筛选信息数据集中获取待筛选知识内容,并基于所述待筛选知识内容结合所述问答机制获取更新知识内容;
第一问答机制获取模块,用于利用问答机制从待筛选知识内容中获取筛除后知识内容;
第二问答机制获取模块,用于基于所述筛除后的知识内容结合所述问答机制获取更新知识内容;
知识图谱构建模块,用于根据所述更新知识内容,构建更新后知识图谱,完成知识图谱的更新。
9.一种计算机装置,其特征在于:所述计算机装置包括:
处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于:所述计算机指令被处理器执行时实现如权利要求1-7中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111679573.8A CN114254129A (zh) | 2021-12-31 | 2021-12-31 | 更新知识图谱的方法、装置和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111679573.8A CN114254129A (zh) | 2021-12-31 | 2021-12-31 | 更新知识图谱的方法、装置和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254129A true CN114254129A (zh) | 2022-03-29 |
Family
ID=80799226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111679573.8A Pending CN114254129A (zh) | 2021-12-31 | 2021-12-31 | 更新知识图谱的方法、装置和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254129A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491084A (zh) * | 2022-04-12 | 2022-05-13 | 平安科技(深圳)有限公司 | 基于自编码器的关系网络信息挖掘方法、装置及设备 |
CN115408534A (zh) * | 2022-08-23 | 2022-11-29 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
CN116541537A (zh) * | 2023-06-06 | 2023-08-04 | 简单汇信息科技(广州)有限公司 | 一种基于知识图谱的企业贸易信息可视化展示方法 |
WO2024065190A1 (en) * | 2022-09-27 | 2024-04-04 | Siemens Aktiengesellschaft | Method, system, apparatus, electronic device, and storage medium for creating knowledge graph in industrial field |
-
2021
- 2021-12-31 CN CN202111679573.8A patent/CN114254129A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491084A (zh) * | 2022-04-12 | 2022-05-13 | 平安科技(深圳)有限公司 | 基于自编码器的关系网络信息挖掘方法、装置及设备 |
CN115408534A (zh) * | 2022-08-23 | 2022-11-29 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
CN115408534B (zh) * | 2022-08-23 | 2023-12-12 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
WO2024065190A1 (en) * | 2022-09-27 | 2024-04-04 | Siemens Aktiengesellschaft | Method, system, apparatus, electronic device, and storage medium for creating knowledge graph in industrial field |
CN116541537A (zh) * | 2023-06-06 | 2023-08-04 | 简单汇信息科技(广州)有限公司 | 一种基于知识图谱的企业贸易信息可视化展示方法 |
CN116541537B (zh) * | 2023-06-06 | 2023-11-03 | 简单汇信息科技(广州)有限公司 | 一种基于知识图谱的企业贸易信息可视化展示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
CN114254129A (zh) | 更新知识图谱的方法、装置和可读存储介质 | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US11823074B2 (en) | Intelligent communication manager and summarizer | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN109543034B (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
WO2019100319A1 (en) | Providing a response in a session | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
Lommatzsch et al. | An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases. | |
Aryal et al. | MoocRec: Learning styles-oriented MOOC recommender and search engine | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
CN112732969A (zh) | 图像语义分析方法、装置、存储介质及电子设备 | |
CN117271558A (zh) | 语言查询模型构建方法、查询语言获取方法及相关装置 | |
CN116882414A (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
Jumani et al. | Online text categorization system using support vector machine | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
Puren et al. | Between History and Natural Language Processing: Study, Enrichment and Online Publication of French Parliamentary Debates of the Early Third Republic (1881-1899) | |
Fritzner | Automated information extraction in natural language | |
Yin et al. | Extracting actors and use cases from requirements text with BiLSTM-CRF | |
CN112036569B (zh) | 知识内容的标注方法、装置、计算机装置和可读存储介质 | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、系统及介质 | |
Rauth et al. | Design and evaluation of Text Pre-Processor: A tool for text pre-processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |