CN110019823B - 更新知识图谱的方法及装置 - Google Patents

更新知识图谱的方法及装置 Download PDF

Info

Publication number
CN110019823B
CN110019823B CN201710568835.0A CN201710568835A CN110019823B CN 110019823 B CN110019823 B CN 110019823B CN 201710568835 A CN201710568835 A CN 201710568835A CN 110019823 B CN110019823 B CN 110019823B
Authority
CN
China
Prior art keywords
updating
attribute
attribute value
period
change period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710568835.0A
Other languages
English (en)
Other versions
CN110019823A (zh
Inventor
胡于响
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710568835.0A priority Critical patent/CN110019823B/zh
Publication of CN110019823A publication Critical patent/CN110019823A/zh
Application granted granted Critical
Publication of CN110019823B publication Critical patent/CN110019823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/235Update request formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种更新知识图谱的方法及装置,涉及计算机技术领域,能够解决现有技术中更新知识图谱效率低、及时性差的问题。本发明的方法主要包括:为知识图谱的数据层中实体的属性设置变化周期;基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。本发明主要适用于更新知识图谱数据层的场景中。

Description

更新知识图谱的方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种更新知识图谱的方法及装置。
背景技术
随着科技的发展,人工智能逐渐成为计算机领域的发展方向,即人类的目标是生产出一种新的、能以人类智能相似的方式做出反应的智能机器。为实现普遍意义的智能,机器需要有一个“大脑”存储各种各样的知识,这种知识在计算机领域被称为知识图谱。
知识图谱主要包括模式层和数据层。其中,模式层是整个知识图谱的高度抽像,用于描述一些概念(或称为实体)、概念的属性以及概念之间的关系;数据层是模式层中各个概念的具体实例。例如,若如图1所示,在模式层中定义两个概念“人”和“城市”,且定义“人”的属性为“性别”和“年龄”,定义“城市”的属性为“位于”和“当天天气”,“人”与“城市”的关联关系为“居住于”,则如图1所示,知识图谱的数据层的部分片段可以为:“人”具体为“李磊”,“李磊”的性别为“男”、年龄为“20”,“城市”具体为“北京”,“北京”位于“中国”、当天天气为“晴”,并且“李磊”居住于“北京”。
由于知识图谱中知识可能会发生变化(例如人的年龄会增长),所以在将知识图谱构建完成后,还需要及时对知识图谱中的知识进行更新。目前主要采用定时全量更新的方法对知识图谱进行更新,即每隔一段时间(例如一周),就从网络中爬取最新的内容,然后将爬取的内容替换知识图谱中的对应内容,在将所有内容替换完成后,完成整个知识图谱的更新操作。然而,在知识图谱中,并不是每个属性的属性值都会发生变化(例如人的性别不会发生变化,年龄会发生变化),发生变化的属性的变化周期也不是完全相同的(例如年龄的变化周期是一年,天气的变化周期为一天)。因此,当知识图谱的数据量较大时,定时全量更新的方法不但会因更新大量无需更新的属性值而消耗大量时间以及资源,而且当设置的更新周期较长时,很多数据还无法得到及时更新。
发明内容
有鉴于此,本发明提供一种更新知识图谱的方法及装置,能够解决现有技术中更新知识图谱效率低、及时性差的问题。
第一方面,本发明提供了一种更新知识图谱的方法,所述方法包括:
为知识图谱的数据层中实体的属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
第二方面,本发明提供了一种更新知识图谱的装置,所述装置包括:
设置单元,用于为知识图谱的数据层中实体的属性设置变化周期;
确定单元,用于基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
更新单元,用于根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
第三方面,本发明提供了一种存储介质,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行:
为知识图谱的数据层中实体的属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
第四方面,本发明提供了一种电子设备,所述电子设备包括存储介质和处理器;
所述存储介质,用于存储所述处理器执行的指令以及所述处理器执行指令过程中所需的数据;
所述处理器,用于执行以下指令:
为知识图谱的数据层中实体的属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
借由上述技术方案,本发明提供的更新知识图谱的方法及装置,能够先为知识图谱数据层中实体的属性设置变化周期,然后基于当前时间以及为属性设置的变化周期,确定属性所对应的属性值的下次更新时间,最后通过时间监控来确定哪些属性值到达自身的下次更新时间,并在确定某个属性值到达其自身对应的下次更新时间时,就立即通过爬取网络数据更新数据层中对应的属性值,从而与定时全量更新相比,不仅能够及时更新需要更新的属性值,还无需花费时间和资源更新未到达自身对应的下次更新时间的其他属性值,进而不仅增强了更新知识图谱的及时性,还提高了更新知识图谱的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了现有技术中提供的一种知识图谱示例图;
图2示出了本发明实施例提供的一种更新知识图谱的方法的流程图;
图3示出了本发明实施例提供的另一种更新知识图谱的方法的流程图;
图4示出了本发明实施例提供的一种更新知识图谱的装置的组成框图;
图5示出了本发明实施例提供的另一种更新知识图谱的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种更新知识图谱的方法,如图2所示,所述方法主要包括:
101、为知识图谱的数据层中实体的属性设置变化周期。
具体的,知识图谱主要分为模式层和数据层,且数据层为模式层的具体实例。在实际应用中,数据层中的每个属性值可能是动态变化的,也可能是固定不变的。为了快速获知哪个属性值需要更新,需要先获知属性的变化周期,然后根据变化周期来确定下次需要更新的时间,最后在下次需要更新的时间点对对应属性的属性值进行更新。
在为知识图谱的数据层中实体的属性设置变化周期时,可以采用的具体方案包括但不限于以下两种:
(1)直接由专业人士根据数据层进行设置。
具体的,可以先由知识图谱更新设备从知识图谱的数据层中提取出待设置的实体以及实体的属性,然后由专业人士根据实体与属性的对应关系,分别为每个实体的属性设置变化周期。
(2)先由专业人士根据模式层进行设置,然后由知识图谱更新设备根据为模式层设置的变化周期自动为数据层中的属性设置变化周期。
具体的,知识图谱更新设备可以先提取所述知识图谱的模式层中实体的属性;然后接收为每个属性设置的变化周期;最后根据为所述模式层中各个属性设置的变化周期,为所述数据层中各个实体的属性设置变化周期。也就是说,可以先由知识图谱更新设备从知识图谱的模式层中提取出待设置的实体以及实体的属性,然后由专业人士根据实体与属性的对应关系,分别为待设置的每个属性设置变化周期,最后由知识图谱更新设备根据模式层以及为模式层中每个属性设置的变化周期,查找数据层中对应的属性,并为对应的属性设置变化周期。
例如,若在模式层中,“人”有一个属性“年龄”,且为该属性设置的变化周期为“1年”,则在数据层中,“人”对应的具体实例“张三”、“李四”、“王五”等等,所对应的属性“年龄”的变化周期均为“1年”。
由于数据层为模式层的具体实例,且在实际应用中同一种模式下的具体实例往往是成千上万,甚至更多,所以数据层的数据量远远大于模式层。因此,人工为模式层中所有属性设置变化周期所花费的时间远远小于人工为数据层中所有属性设置变化周期所花费的时间,从而采用第二种方式可以大大提高为数据层中所有属性设置变化周期的效率。
需要说明的是,在实际应用中,当用户只关心某个实体的相关信息是否是最新信息时,可以只针对这一个实体进行设置;当用户只关心某几个实体的相关信息是否是最新信息是,可以针对多个实体进行设置;当用户关心所有实体的相关信息是否是最新信息或者当不同用户关系的实体不同时,可以针对所有实体进行设置。因此本步骤具体可以为:先确定所述知识图谱的数据层中待设置的至少一个实体,然后再为确定的实体的属性设置变化周期。
其中,确定所述知识图谱的数据层中待设置的至少一个实体的具体实现方式可以为:接收用户输入的所述知识图谱的数据层中待设置的至少一个实体。
102、基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间。
在获得每个属性的变化周期后,为了能够更加及时地更新需要更新的属性值,可以通过分别计算当前时间与各个变化周期之和,获得每个属性值的下次更新时间,以便到达下次更新时间时,对对应的属性值进行更新。
示例性的,若当前时间为2016-07-15 00:00:00,且变化周期为1天,则下次更新时间为2016-07-16 00:00:00。
103、根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
在计算出数据层中每个属性值的下次更新时间后,可以定期或者实时扫描每个属性值的下次更新时间,在当前扫描时间等于某个下次更新时间时,知识图谱更新设备可以确定该下次更新时间对应的属性值的更新时间到了,并立即查找对应的爬虫参数爬取网络数据,将爬取的网络数据中最新的属性值替换数据层中对应的属性值,以实现属性值的更新操作。也就是说,若确定达到某个属性值的下次更新时间,则可以通过爬取网络数据更新数据层中对应的属性值。其中,可以在确定达到某个属性值的下次更新时,立即通过爬取网络数据更新数据层中对应的属性值,也可以在确定达到某个属性值的下次更新时间后的一段时间内,通过爬取网络数据更新数据层中对应的属性值,只要在获知某属性值可能在网页中刚被更新时,在较短时间内对其完成更新即可。
其中,爬虫参数主要包括:需要爬取的URL(Uniform Resource Locator,统一资源定位符)以及待爬取的信息在网页DOM(Document Object Model,文档对象模型)树中的位置信息。
本发明实施例提供的更新知识图谱的方法,能够先为知识图谱数据层中实体的属性设置变化周期,然后基于当前时间以及为属性设置的变化周期,确定属性所对应的属性值的下次更新时间,最后通过时间监控来确定哪些属性值到达自身的下次更新时间,并在确定某个属性值到达其自身对应的下次更新时间时,就立即通过爬取网络数据更新数据层中对应的属性值,从而与定时全量更新相比,不仅能够及时更新需要更新的属性值,还无需花费时间和资源更新未到达自身对应的下次更新时间的其他属性值,进而不仅增强了更新知识图谱的及时性,还提高了更新知识图谱的效率。
进一步的,依据图2所示的方法,本发明的另一个实施例还提供了一种更新知识图谱的方法,如图3所示,所述方法主要包括:
201、为知识图谱的数据层中实体的属性设置变化周期。
本步骤的具体实现方式与上述步骤101的具体实现方式一致,在此不再赘述。
202、基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间。
本步骤的具体实现方式与上述步骤102的具体实现方式一致,在此不再赘述。
203、根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
当更新时间到达时,为了快速获得需要更新的属性值的相关信息,进而快速更新知识图谱,本步骤可以具体细化为下述步骤(a)-(c):
(a)建立索引数据库。
其中,所述索引数据库主要包括所述数据层中的实体、实体的属性、属性的变化周期、下次更新时间、爬取网络数据所需的爬虫参数之间的对应关系。另外,在建立索引数据库时,可以将下次更新时间设置为主键,以便根据主键快速查找同一个下次更新时间下的所有内容。
本发明实施例对所述索引数据库的类型不做限定,例如可以为MySQL类型,也可以为Hbase类型。
示例性的,索引数据库的存储格式可以如表1所示。
表1
Figure BDA0001349089560000071
(b)扫描所述索引数据库,从中筛选出与当前扫描时间相同的下次更新时间。
在建立索引数据库后,可以实时或者定时扫描索引数据库,以确定索引数据库中是否含有与当前扫描时间相同的下次更新时间,当确定含有与当前扫描时间相同的下次更新时间时,将该下次更新时间以及该下次更新时间对应的信息筛选出来,并将筛选出来的信息存储至内存存储队列中,以便后续根据这些信息对知识图谱中的对应属性值进行更新。其中,内存存储队列的具体类型不限定,例如可以为metaq内存存储队列。
示例性的,若每隔一分钟对表1扫描一次,则在2016-07-16 00:00:00的扫描结果为表2,在2016-07-16 15:05:00的扫描结果为表3,在2017-07-16 01:00:00的扫描结果为表4。
表2
Figure BDA0001349089560000081
表3
Figure BDA0001349089560000082
表4
Figure BDA0001349089560000083
(c)根据筛选出的下次更新时间对应的爬虫参数,爬取对应属性的属性值,并将爬取的属性值替换所述数据层中对应的属性值。
当筛选出与当前扫描时间相同的下次更新时间以及该下次更新时间对应的信息时,可以分别根据每个下次更新时间对应的爬虫参数(包括URL以及DOM树位置信息)爬取对应属性的属性值,然后分别将爬取的属性值替换知识图谱数据层中对应的属性值,从而实现知识图谱的更新。其中,知识图谱更新设备在根据爬虫参数从网络中爬取属性值后,可以将这些属性值存储到预设存储空间中,以便后续进行属性值更新时,可以从该预设存储空间中快速查找所需的属性值。
将爬取的属性值替换所述数据层中对应的属性值的具体实现方式可以为:知识图谱更新设备先根据所述索引数据库中所述筛选出的下次更新时间对应的实体、实体的属性,查找所述知识图谱的数据层中对应的属性值;然后再将所述爬取的属性值替换查找到的属性值。
其中,根据所述索引数据库中所述筛选出的下次更新时间对应的实体、实体的属性,查找所述知识图谱的数据层中对应的属性值的具体实现方式为:先根据筛选出的实体查找指示图片数据层中对应的实体,然后根据筛选出的属性以及查找到的实体,查找数据层中所需的属性性,最后根据查找到的属性查找属性值。
进一步的,当所述索引数据库中还包括属性值时,可以将所述爬取的属性值替换所述索引数据库中对应的属性值,以便后续需要从索引数据库中查询属性值时,能够获得最新的属性值。
204、基于属性的变化周期,更新所述属性对应的下次更新时间。
在完成知识图谱的更新后,需要更新下次更新时间,以便根据更新后的下次更新时间,实现对知识图谱的下一次更新。
在实际应用中,除了存在周期性发生变化的属性以及固定不变的属性外,还存在一种未知变化周期的属性。例如,一个人这一生的居住场所可能会发生改变,但又不知何时会发生改变,或者根本不会发生改变,因此图1中实体“李磊”的一个属性“居住于”的变化周期就是未知的。
当需要更新的知识图谱中含有变化周期为动态变化的属性时,可以在建立索引数据库时,添加用于指示变化周期是否会动态变化的周期特征以及变化周期的更新次数,以便后续根据这两个信息来更新下次更新时间。
下面针对固定变化周期以及动态变化周期这两种情况,对本步骤的具体实现方式进行详细阐述:
(一)若所述周期特征为固定不变,则基于所述周期特征对应的当前的变化周期,更新对应的下次更新时间。
例如,实体“上海”的属性“当天天气”的变化周期是固定不变的,且变化周期为1天,因此当更新知识图谱中对应的属性值后,下次更新时间依然为当前时间+1天。
(二)若所述周期特征为动态变化,则基于预设周期更新算法以及所述周期特征对应的更新次数,更新所述周期特征对应的变化周期,并基于更新后的变化周期,更新对应的下次更新时间。
由于我们不知道一些属性(如“居住于”)的变化周期,所以对于不同的实例,可以先将变化周期设置为最小值(如1天),然后再通过增大变化周期的方式进行试探,从中查找比较合适的变化周期。在具体试探过程中,由于变化周期的开始值比较小,所以开始试探时,可以比较频繁;当发现多次爬虫后,数据均没有发生改变时,可以认为对于该实例而言该属性是比较稳定的,于是可以放大其变化周期,从而试探变得越来越少,直到变化周期稳定(即达到人工设定的最大值);而如果发现某次爬虫后数据发生改变,则可以将该变化周期重新置为最小值,重新开始进行轮询试探,从而可以达到对相同属性不同实例的个性化更新。其中,为变化周期设置最大值的目的是为了有效控制更新频率,并平衡更新及时性以及更新所耗资源。
由此可知,在试探变化周期的过程中,需要使得变化周期越来越大,为了使得变化周期越来越大,可以将预设周期更新算法设置为递增函数,且变化周期随着更新次数的增大而增大,由此可以通过增大更新次数使得变化周期增大;也可以将预设周期更新算法设置为递减函数,且变化周期随着更新次数的减小而增大,由此可以通过减小更新次数使得变化周期增大。
通过上述分析可知,更新变化周期的具体实现方式可以为下述步骤(A)-(B):
(A)知识图谱更新设备根据所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值之间的差异,调整所述周期特征对应的更新次数。
具体的,当所述预设周期更新算法为递增函数,且变化周期随着更新次数的增大而增大时,本步骤的具体实现方式可以为:当所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值相同时,知识图谱更新设备可以将所述周期特征对应的更新次数增加预设次数;当所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值不同时,知识图谱更新设备将所述周期特征对应的更新次数置零。
也就是说,当使用当前的变化周期更新知识图谱中的属性值时,若从网络侧爬取的属性值与原始的属性值相同,则说明还未到真正更新时间,从而可以通过调大更新次数来调大变化周期,再次查看属性值是否发生变化。当某一次发生从网络侧爬取的属性值与原始的属性值不同时,则确定该属性值已经更新,并且对于更新不频繁的属性值来说,若突然某一次发生更新,则很可能最近还会更新,因此可以通过将更新次数调整至零来将变化周期调整至最小值,以便下次及时更新该属性值。
其中,周期特征对应的原始的属性值可以是根据索引数据库中实体、实体的属性从知识图谱中获取到的,也可以是直接从索引数据中获取到的(即索引数据库中可以记录具体的属性值)。当索引数据库中还包括周期特征、更新次数以及属性值时,索引数据库的具体表现形式可以如表5所示。
表5
Figure BDA0001349089560000111
Figure BDA0001349089560000121
需要说明的是,本步骤中的预设次数可以为1,也可以为其他值,根据具体情况而定。
另外,当所述预设周期更新算法为递减函数,且变化周期随着更新次数的减小而增大时,本步骤的具体实现方式可以为:若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值相同,则将所述周期特征对应的更新次数减去预设次数;若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值不同,则将所述周期特征对应的更新次数设置为预设最大次数,其中所述预设最大次数为能够使得变化周期为所述预设周期更新算法中最小值的次数。其中,该过程的原理与上述递增函数原理类似,在此不再赘述。
(B)将调整后的更新次数作为所述预设周期更新算法的输入参数,计算更新后的变化周期。
其中,当预设更新算法为递增增函数时,在实际应用中,
Figure BDA0001349089560000122
/>
Figure BDA0001349089560000123
其中,t表示更新次数,且t>=0,daymax为设置的变化周期最大值。
具体的,上述公式在t>=0时单调递增;当t=0时,变化周期=1,当t=+∞时,变化周期取最大值daymax;并且t从0增加到t1时,变化周期增加较慢,t从t1增加到t2时,变化周期增加变快,t从t2增加到t3时,变化周期又开始变慢,最后t趋向于+∞时,收敛于daymax。因此本公式十分符合人们试探变化周期的思想过程。
本发明实施例提供的更新知识图谱的方法,不仅能够为知识图谱数据层中实体的属性设置变化周期,以及计算属性值的下次更新时间,还能够将获得的变化周期、下次更新时间、关于属性的其他基本信息存储于索引数据库当中,从而以下次更新时间作为主键快速扫描出需要更新的属性值的所有相关信息,并根据这些信息快速更新知识图谱中的属性值,进而进一步提高了更新知识图谱的效率。另外,在完成本次更新,并通过更新下次更新时间来开启下一次的时间监控时,本发明实施例还分别根据变化周期的周期特征来更新下次更新时间,即对于固定不变的变化周期,本发明实施例直接根据该变化周期更新对应的下次更新时间,而对于动态变化的变化周期,本发明实施例则通过预设的算法来动态计算下次更新时间,从而使得每个属性值的下次更新时间都尽量接近属性值实际所发生的下次更新时间,进而进一步增强了更新知识图谱的及时性。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种更新知识图谱的装置,如图4所示,所述装置主要包括:设置单元31、确定单元32以及更新单元33。其中,
设置单元31,用于为知识图谱的数据层中实体的属性设置变化周期;
确定单元32,用于基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
更新单元33,用于根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
可选的,如图5所示,所述设置单元31包括:
提取模块311,用于提取所述知识图谱的模式层中实体的属性;
接收模块312,用于接收为所述提取模块311提取的属性设置的变化周期;
设置模块313,用于根据所述接收模块312接收的为所述模式层中所述属性设置的变化周期,为所述数据层中所述属性设置变化周期。
可选的,所述更新单元33用于当确定到达所述属性值的下次更新时间时,通过爬取网络数据更新所述数据层中对应的属性值。
可选的,如图5所示,所述更新单元33包括:
建立模块331,用于建立索引数据库,所述索引数据库包括所述数据层中的实体、实体的属性、属性的变化周期、下次更新时间、爬取网络数据所需的爬虫参数之间的对应关系;
扫描筛选模块332,用于扫描所述建立模块建立的所述索引数据库,从中筛选出与当前扫描时间相同的下次更新时间;
爬取模块333,用于根据所述扫描筛选模块332筛选出的下次更新时间对应的爬虫参数,爬取对应属性的属性值;
替换模块334,用于将所述爬取模块333爬取的属性值替换所述数据层中对应的属性值。
可选的,如图5所示,所述替换模块334包括:
查找子模块3341,用于根据所述索引数据库中筛选出的下次更新时间对应的实体、实体的属性,查找所述知识图谱的数据层中对应的属性值;
替换子模块3342,用于将所述爬取的属性值替换所述查找子模块查找到的属性值。
可选的,所述替换模块334还用于当所述索引数据库中还包括属性值时,将所述爬取模块爬取的属性值替换所述索引数据库中对应的属性值。
可选的,所述更新单元33还用于在根据所述属性值的下次更新时间,更新所述数据层中对应的属性值之后,基于属性的变化周期,更新所述属性对应的下次更新时间。
可选的,如图5所示,所述更新单元33包括:
第一更新模块335,用于当所述索引数据库中还包括用于指示变化周期是否会动态变化的周期特征以及变化周期的更新次数时,若所述周期特征为固定不变,则基于所述周期特征对应的当前的变化周期,更新对应的下次更新时间;
第二更新模块336,用于当所述周期特征为动态变化时,基于预设周期更新算法以及所述周期特征对应的更新次数,更新所述周期特征对应的变化周期,其中,所述预设周期更新算法为递增函数,且变化周期随着更新次数的增大而增大;
第三更新模块337,用于基于第二更新模块336获得的更新后的变化周期,更新对应的下次更新时间。
可选的,如图5所示,所述第二更新模块336包括:
调整子模块3361,用于根据所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值之间的差异,调整所述周期特征对应的更新次数;
计算子模块3362,用于将所述调整子模块3361调整后的更新次数作为所述预设周期更新算法的输入参数,计算更新后的变化周期。
可选的,所述预设周期更新算法为递增函数,且变化周期随着更新次数的增大而增大;
或者,所述预设周期更新算法为递减函数,且变化周期随着更新次数的减小而增大。
可选的,所述调整子模块3361用于在所述预设周期更新算法为递增函数,且变化周期随着更新次数的增大而增大的情况下,当所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值相同时,将所述周期特征对应的更新次数增加预设次数;当所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值不同时,将所述周期特征对应的更新次数置零。
其中,满足上述特征的预设周期更新算法可以为:
Figure BDA0001349089560000151
其中,t表示更新次数,且t>=0,daymax为设置的变化周期最大值。
可选的,所述调整子模块3361用于在所述预设周期更新算法为递减函数,且变化周期随着更新次数的减小而增大的情况下,若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值相同,则将所述周期特征对应的更新次数减去预设次数;若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值不同,则将所述周期特征对应的更新次数设置为预设最大次数,其中所述预设最大次数为能够使得变化周期为所述预设周期更新算法中最小值的次数。
可选的,所述设置单元31用于确定所述知识图谱的数据层中待设置的至少一个实体;为确定的实体的属性设置变化周期。
本发明实施例提供的更新知识图谱的装置,能够先为知识图谱数据层中实体的属性设置变化周期,然后基于当前时间以及为属性设置的变化周期,计算属性所对应的属性值的下次更新时间,最后通过时间监控来确定哪些属性值到达自身的下次更新时间,并在确定某个属性值到达其自身对应的下次更新时间时,就立即通过爬取网络数据更新数据层中对应的属性值,从而与定时全量更新相比,不仅能够及时更新需要更新的属性值,还无需花费时间和资源更新未到达自身对应的下次更新时间的其他属性值,进而不仅增强了更新知识图谱的及时性,还提高了更新知识图谱的效率。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行:
为知识图谱的数据层中实体的属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
需要说明的是,该存储介质中存储的指令还包括图3所示实施例中的内容,在此不再赘述。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种电子设备,所述电子设备包括存储介质和处理器;
所述存储介质,用于存储所述处理器执行的指令以及所述处理器执行指令过程中所需的数据;
所述处理器,用于执行以下指令:
为知识图谱的数据层中的属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
需要说明的是,该存储介质中存储的指令以及该处理器执行的指令还包括图3所示实施例中的内容,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的更新知识图谱的方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (15)

1.一种更新知识图谱的方法,其特征在于,所述方法包括:
为知识图谱的数据层中实体的属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值;
所述为知识图谱的数据层中实体的属性设置变化周期包括:
提取所述知识图谱的模式层中实体的属性;
接收为所述属性设置的变化周期;
根据为所述模式层中所述属性设置的变化周期,为所述数据层中所述属性设置变化周期。
2.根据权利要求1所述的方法,其特征在于,所述根据所述属性值的下次更新时间,更新所述数据层中对应的属性值包括:
若确定到达所述属性值的下次更新时间,则通过爬取网络数据更新所述数据层中对应的属性值。
3.根据权利要求2所述的方法,其特征在于,所述若确定到达所述属性值的下次更新时间,则通过爬取网络数据更新所述数据层中对应的属性值包括:
建立索引数据库,所述索引数据库包括所述数据层中的实体、实体的属性、属性的变化周期、下次更新时间、爬取网络数据所需的爬虫参数之间的对应关系;
扫描所述索引数据库,从中筛选出与当前扫描时间相同的下次更新时间;
根据筛选出的下次更新时间对应的爬虫参数,爬取对应属性的属性值,并将爬取的属性值替换所述数据层中对应的属性值。
4.根据权利要求3所述的方法,其特征在于,所述将爬取的属性值替换所述数据层中对应的属性值包括:
根据所述索引数据库中筛选出的下次更新时间对应的实体、实体的属性,查找所述知识图谱的数据层中对应的属性值;
将所述爬取的属性值替换查找到的属性值。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述索引数据库中还包括属性值时,将所述爬取的属性值替换所述索引数据库中对应的属性值。
6.根据权利要求3所述的方法,其特征在于,在根据所述属性值的下次更新时间,更新所述数据层中对应的属性值之后,所述方法还包括:
基于属性的变化周期,更新所述属性对应的下次更新时间。
7.根据权利要求6所述的方法,其特征在于,当所述索引数据库中还包括用于指示变化周期是否会动态变化的周期特征以及变化周期的更新次数时,所述基于属性的变化周期,更新所述属性对应的下次更新时间包括:
若所述周期特征为固定不变,则基于所述周期特征对应的当前的变化周期,更新对应的下次更新时间;
若所述周期特征为动态变化,则基于预设周期更新算法以及所述周期特征对应的更新次数,更新所述周期特征对应的变化周期,并基于更新后的变化周期,更新对应的下次更新时间。
8.根据权利要求7所述的方法,其特征在于,所述基于预设周期更新算法以及所述周期特征对应的更新次数,更新所述周期特征对应的变化周期包括:
根据所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值之间的差异,调整所述周期特征对应的更新次数;
将调整后的更新次数作为所述预设周期更新算法的输入参数,计算更新后的变化周期。
9.根据权利要求8所述的方法,其特征在于,所述预设周期更新算法为递增函数,且变化周期随着更新次数的增大而增大;
或者,所述预设周期更新算法为递减函数,且变化周期随着更新次数的减小而增大。
10.根据权利要求9所述的方法,其特征在于,当所述预设周期更新算法为递增函数,且变化周期随着更新次数的增大而增大时,所述根据所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值之间的差异,调整所述周期特征对应的更新次数包括:
若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值相同,则将所述周期特征对应的更新次数增加预设次数;
若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值不同,则将所述周期特征对应的更新次数置零。
11.根据权利要求9所述的方法,其特征在于,当所述预设周期更新算法为递减函数,且变化周期随着更新次数的减小而增大时,所述根据所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值之间的差异,调整所述周期特征对应的更新次数包括:
若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值相同,则将所述周期特征对应的更新次数减去预设次数;
若所述周期特征对应的爬取的属性值与所述周期特征对应的原始的属性值不同,则将所述周期特征对应的更新次数设置为预设最大次数,其中所述预设最大次数为能够使得变化周期为所述预设周期更新算法中最小值的次数。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述为知识图谱的数据层中实体的属性设置变化周期包括:
确定所述知识图谱的数据层中待设置的至少一个实体;
为确定的实体的属性设置变化周期。
13.一种更新知识图谱的装置,其特征在于,所述装置包括:
设置单元,用于为知识图谱的数据层中实体的属性设置变化周期,包括:提取所述知识图谱的模式层中实体的属性;接收为所述属性设置的变化周期;根据为所述模式层中所述属性设置的变化周期,为所述数据层中所述属性设置变化周期;
确定单元,用于基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
更新单元,用于根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
14.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行:
为知识图谱的数据层中实体的属性设置变化周期,包括:提取所述知识图谱的模式层中实体的属性;接收为所述属性设置的变化周期;根据为所述模式层中所述属性设置的变化周期,为所述数据层中所述属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
15.一种电子设备,其特征在于,所述电子设备包括存储介质和处理器;
所述存储介质,用于存储所述处理器执行的指令以及所述处理器执行指令过程中所需的数据;
所述处理器,用于执行以下指令:
为知识图谱的数据层中的属性设置变化周期,包括:提取所述知识图谱的模式层中实体的属性;接收为所述属性设置的变化周期;根据为所述模式层中所述属性设置的变化周期,为所述数据层中所述属性设置变化周期;
基于当前时间以及所述属性的变化周期,确定所述属性所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新所述数据层中对应的属性值。
CN201710568835.0A 2017-07-13 2017-07-13 更新知识图谱的方法及装置 Active CN110019823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710568835.0A CN110019823B (zh) 2017-07-13 2017-07-13 更新知识图谱的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710568835.0A CN110019823B (zh) 2017-07-13 2017-07-13 更新知识图谱的方法及装置

Publications (2)

Publication Number Publication Date
CN110019823A CN110019823A (zh) 2019-07-16
CN110019823B true CN110019823B (zh) 2023-03-28

Family

ID=67185814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710568835.0A Active CN110019823B (zh) 2017-07-13 2017-07-13 更新知识图谱的方法及装置

Country Status (1)

Country Link
CN (1) CN110019823B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795555B (zh) * 2019-10-31 2022-06-17 北京明略软件系统有限公司 知识图谱数据展示方法及相关装置
CN113553436A (zh) * 2020-04-23 2021-10-26 广东博智林机器人有限公司 一种知识图谱更新方法、装置、电子设备和存储介质
CN113297044B (zh) * 2020-06-11 2024-01-09 阿里巴巴集团控股有限公司 一种运维风险预警方法及装置
CN113254668B (zh) * 2021-06-11 2022-02-18 云南大学 一种基于场景纬度的知识图谱构建方法及系统
CN114817423A (zh) * 2022-04-26 2022-07-29 电子科技大学 一种面向金融行业的知识图谱更新系统
CN115599793B (zh) * 2022-09-28 2024-01-26 北京亚控科技发展有限公司 一种更新数据的方法、装置及存储介质
CN116089748B (zh) * 2022-11-11 2023-08-08 之江实验室 一种药物深度知识图谱渲染与更新方法、系统及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180804B1 (en) * 2010-04-19 2012-05-15 Facebook, Inc. Dynamically generating recommendations based on social graph information
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN106776635A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 知识库数据的更新方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104748B2 (en) * 2011-10-21 2015-08-11 Microsoft Technology Licensing, Llc Providing a search service including updating aspects of a document using a configurable schema
US20170024375A1 (en) * 2015-07-26 2017-01-26 Microsoft Technology Licensing, Llc Personal knowledge graph population from declarative user utterances

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180804B1 (en) * 2010-04-19 2012-05-15 Facebook, Inc. Dynamically generating recommendations based on social graph information
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN106776635A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 知识库数据的更新方法及装置
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于开放网络知识的信息检索与数据挖掘;王元卓;《计算机发展与研究》;20150215;第52卷(第2期);第456-474页 *
基于知识库的客户网购意向预测系统;马月坤;《计算机工程与应用》;20160325;第52卷(第13期);第101-109页 *

Also Published As

Publication number Publication date
CN110019823A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019823B (zh) 更新知识图谱的方法及装置
US20210103779A1 (en) Mobile image search system
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
CN108256067B (zh) 计算房源相似度的方法、装置、设备及存储介质
US10853407B2 (en) Correlating image annotations with foreground features
US20220383053A1 (en) Ephemeral content management
US9754359B2 (en) Identifying previously-blurred areas for creating a blur effect for an image
CN107256232B (zh) 一种信息推荐方法和装置
US20150019586A1 (en) System and method for sharing tagged multimedia content elements
US20100034470A1 (en) Image and website filter using image comparison
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN104933134A (zh) 一种用户特征的分析方法及装置
US10380267B2 (en) System and method for tagging multimedia content elements
CN108230113A (zh) 用户画像生成方法、装置、设备及可读存储介质
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
CN104391951A (zh) 网页热力图的加载方法和装置
CN103210401A (zh) 用以改进对象辨识中的特征产生的系统和方法
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN103823907A (zh) 一种整合在线视频资源地址的方法、装置及引擎
KR20120042529A (ko) 웹 페이지 크롤링 방법 및 장치
WO2014108038A1 (zh) 一种生成常用网址的客户端、服务器、系统和方法
US8489643B1 (en) System and method for automated content aggregation using knowledge base construction
CN106897432B (zh) 一种在电子地图中爬取地标信息的系统和方法
CN103294717A (zh) 一种基于双内核浏览器的网页打开方法和装置
CN110008393B (zh) 一种用于获取网站信息的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40010808

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant