CN103823879B

CN103823879B - 面向在线百科的知识库自动更新方法及系统

Info

Publication number: CN103823879B
Application number: CN201410072608.5A
Authority: CN
Inventors: 程学旗; 王元卓; 林海伦; 贾岩涛; 熊锦华; 许洪波; 冯凯
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2017-06-16
Anticipated expiration: 2034-02-28
Also published as: CN103823879A

Abstract

本发明提供一种面向在线百科的知识库自动更新的方法，该方法实时监控知识库的知识语料来源，根据知识语料更新时间和知识语料内容变化，获取新增的知识语料与内容改变的知识语料；从所获取的知识语料识别知识的变化，以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识，自动判断更新知识在知识库中所处的位置，以及将更新的知识，自动合并添加到知识库中，可避免知识库的滞后性并满足用户对知识库时新性的要求。

Description

面向在线百科的知识库自动更新方法及系统

技术领域

本发明涉及网络知识库，尤其涉及网络知识库自动更新方法及系统。

背景技术

知识库通常包含一组概念、实例和关系的集合，是结构化、全面有组织的知识集群，是采用某种知识表示方式组织、管理和使用的互相联系的知识集合。这些知识包括与领域相关的理论知识、事实数据，由专家经验得到的启发式知识，如某领域内有关的定义、定理和运算法则以及常识性知识等。在知识工程领域中，知识描述的要素一般包括概念、实例、关系和属性四个要素。

近年来，构建知识库是国内外工业界开发和学术界研究的一个热点，目前，世界各国各个组织建立的知识库多达50余种，相关的应用系统更是达到了上百种。其中，有代表性的知识库有DBpedia、YAGO、Probase、WikiTaxonomy、Freebase、Omega等。知识库之所以得到广泛关注，原因在于知识库在很多应用中起到至关重要的作用，如在搜索引擎中，Google、Bing、百度、搜狗等使用知识库帮助理解用户查询、感知用户查询意图、进行查询扩展和查询问答等；在Deep Web资源发现中，知识库可以辅助进行Deep Web查询选择；在社交网络中，知识库可以辅助挖掘社交数据等。

而在知识库构造中，在线百科(如Wikipedia、百度百科、互动百科等)作为聚集互联网用户的群体智慧建立的大规模、随时间演化、可分享的网络百科全书，成为构造知识库首选的知识语料来源。在线百科知识语料，比起结构性较弱的普通网页，其包含的百科词条不仅具有较高的质量而且可以保证所得到知识的精度，因此，在线百科数据成为构造知识库的重要语料来源，很多知识库都是基于百科数据构造的，如：DBpedia、YAGO、WikiTaxonomy、Omega等。然而，在线百科数据是随时间不断演化的，其在不断的增加、删除和修改，因此，为了保持知识库的时新性，在最大程度上避免知识库的滞后，需要不断对知识库进行更新，以适应用户对知识的实时性的需求。知识库的更新可分为两个层面的工作：一是已有知识的更新；二是新的知识的加入。

目前，专门针对知识库的更新的工作较少，很多工作都是从数据库更新的角度展开，如对数据库数据的增加、删除和修改等。从更新方式来讲，知识库的更新方法可分为两类：一种是定期重建的方式，另一种是实时更新的方式。

a)定期重建的方式。该方式本质上是一种离线更新的方式：按照知识库构造的方法，定期在知识语料源上重新执行知识库构造流程，从而得到最新的知识库，这种方式虽然操作简单，但是仍然存在很多缺陷，例如，知识库更新过程耗时长、难以重用知识库构造过程中人工修正的工作、无法满足适应用户对知识的时新性的需求。

b)实时更新的方式。该方式定期采集数据源，检测数据源内容的变化，将发生变化的内容提供给领域专家，由人工判断发生变化的内容涉及哪些知识，或者基于由专家制定的各种规则来判断哪些知识发生了变化并将其同步到知识库中，从而得到更新的知识库。这种方式存在以下局限性：(1)难以编写完备的规则表示知识的增加、删除、修改等；(2)难以满足用户实时更新的需求。

综上所述，目前，对知识库的更新仍然没有很有效的方法，尤其是在面对用户对知识的实时性更新需求方面，远远达不到用户的要求。在更新数据的自动化感知方面，缺乏有效的办法能够自动识别知识的变化，和能够动态响应这些变化的更新机制。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种面向在线百科的知识库自动更新的方法。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种面向在线百科的知识库自动更新的方法，包括：

步骤1，实时监控知识库的知识语料来源，根据知识语料更新时间和知识语料内容变化，获取新增的知识语料与内容改变的知识语料；

步骤2，从所获取的知识语料识别其表示的知识，其中所识别的知识包括实例、实例的属性以及实例所属的概念；

步骤3，基于所识别的知识来更新知识库。

在上述技术方案中，在步骤1中，所述知识语料来源可包括定期备份的知识语料库，所述步骤1可包括：

从该知识语料库的源网站获取新的语料库备份和语料库修改历史；

对于所获取的新的语料库备份中的每个知识语料，获取该知识语料在语料库修改历史中第一次出现的时间和最后一次出现的时间，

如果所述第一次出现的时间大于与知识库当前使用的知识语料库备份的时间，则确定该知识语料是新增的知识语料；

如果所述第一出现的时间小于或等于知识库当前使用的知识语料库备份的时间，并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间，则确定该知识语料是内容改变的知识语料。

在上述技术方案中，在步骤1中所述知识语料来源还可包括通过网络搜索采集的知识语料的集合，所述步骤1还可包括：

基于知识库当前使用的知识语料集合中各知识语料对应URL发送HTTP请求；

从对该HTTP请求的响应的头部信息中提取该知识语料的页面内容最后一次发生变化的时间；

如果所述最后一次发生变化的时间大于知识库当前所使用的该知识语料页面上次更新的时间，则确定该知识语料是内容改变的知识语料；

对所确定的内容改变的知识语料的页面内容进行分析，若发现当前的知识语料集合中不存在的URL，则该URL对应的知识语料是新增的知识语料。

在上述技术方案中，所述步骤3可包括：

对于从新增的知识语料中识别的实例，则根据实例所属的概念判断知识库中是否存在与之对应的概念；若存在，则将该新增的实例，添加到知识库对应的概念下；若不存在，则在知识库中创建一个新的概念，并将该实例添加到该概念下；

对于从内容改变的知识语料中识别的实例信息，则利用该实例信息替换知识库中对应的实例的信息。

在上述技术方案中，所述步骤3中对于所识别的每个实例可执行下列步骤：

步骤31)判断知识库中是否存在与该实例名称且所属概念相同的实例，如果存在，则该实例的信息添加到该知识库中对应实例中；如果不存在，则执行步骤32)；

步骤32)从知识库中选出与该实例名称相同但所述概念不同的实例，计算每个所选出的实例与该实例的匹配度，如果所计算的最大匹配度大于设定的阈值，则该实例的信息添加到与该实例具有最大匹配度的实例中，否则，执行步骤33)；

步骤33)从知识库中查找与该实例所属的概念相匹配的概念，若不存在匹配的概念，则在知识库中创建该概念，并在该概念下创建该实例；若存在匹配的概念，计算该匹配的概念下的每个实例与该实例的匹配度，如果所计算的最大匹配度大于设定的阈值，则该实例的信息添加到与该实例具有最大匹配度的实例中，否则，在该匹配的概念下创建该实例。

在上述技术方案中，在所述步骤32)和步骤33)中，可以通过下面的公式来计算两个实例间的匹配度：

其中，f_md(x，x′)表示实例x和实例x′的匹配度，x.P表示实例x的属性集合，p_i表示实例x的属性集合中的第i个属性；x′.p表示实例x′的属性集合，p_j表示实例x′的属性集合中的第j个属性；sim(p_i，p_j)表示属性p_i与p_j之间的相似度。

在上述技术方案中，属性p_i与p_j之间的相似度可以为属性p_i与p_j的属性名的文本相似度和p_i与p_j的属性名的语义相似度的线性加权。

在上述技术方案中，属性p_i与p_j之间的相似度可以为属性p_i与p_j的属性名的文本相似度。

在上述技术方案中，属性p_i与p_j之间的相似度可以为属性p_i与p_j的属性名的语义相似度。

又一方面，本发明提供了一种面向在线百科的知识库自动更新的系统，包括：

用于实时监控知识库的知识语料来源，根据知识语料更新时间和知识语料内容变化，获取新增的知识语料与内容改变的知识语料的装置；

用于从所获取的知识语料识别其表示的知识的装置，其中所识别的知识包括实例、实例的属性以及实例所属的概念；

用于基于所识别的知识来更新知识库的装置。

与现有技术相比，本发明的优点在于：

实时监控知识库语料来源，根据知识语料更新时间和知识语料内容变化，获取不同状态的知识语料，从而实时感知更新的知识，自动判断更新知识在知识库中所处的位置，以及将更新的知识，自动合并添加到知识库中，从而实现知识库的更新，避免知识库的滞后性，满足用户对知识库时新性的要求。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的面向在线百科的知识库自动更新的方法的流程示意图；

图2为根据本发明一个实施例的从定期备份的知识语料库中获取更新的知识的过程示意图；

图3为根据本发明一个实施例的通过网络搜索采集的知识语料集合中获取更新的知识的过程示意图；

图4为根据本发明一个实施例的根据所识别的知识变化更新知识库的过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为根据本发明实施例的面向在线百科的知识库自动更新的方法的流程示意图。该方法包括：步骤S101，实时监控知识库的知识语料来源，根据知识语料更新时间和知识语料内容变化，获取不同状态的知识语料；步骤S102，基于所获取的知识语料来识别知识的变化；步骤S103，基于所识别的知识的变化来更新知识库。

在步骤S101，实时监控知识语料来源，根据知识语料更新时间和知识语料内容变化，可获取不同状态的知识语料。其中不同状态的知识语料例如可包括新增语料，内容改变语料和保持不变语料以及删除的语料。通常可以通过对用于更新知识库的知识语料来源进行实时监控或定期采集的方式来获取知识语料。用于更新知识库的知识语料来源通常包括专用的知识语料库，例如维基百科、百度百科等，以及通过网络搜索采集的知识语料的集合。

其中，例如维基百科等专用的知识语料库，该知识语料库所在的源网站本身会定期备份知识语料库，并且会保留语料库的修改历史。因此，对于这种会定期备份的知识语料库，可以直接获取新的语料库备份和语料库修改历史。然后，分析知识语料在语料库修改历史中第一次出现的时间(FDA，First Date of Appearance)(记为t_fda)和最后一次出现的时间(LDA，Last Date ofAppearance)(记为t_lda)，将知识库当前使用的知识语料库备份的时间记为t_old。如果t_old＜t_fda，则说明该语料是新增的知识语料，记为c_new；如果t_fda≤t_old＜t_lda，则说明该语料是发生变化的知识语料，记为C_update，如果t_old≥t_lda，则说明该语料是未发生变化的知识语料，记为C_unchanged。根据上述判断获得新增的知识语料集合，发生变化的知识语料集合；

对于通过网络搜索采集的知识语料的集合，可以利用知识库当前使用的知识语料集合对应的URL集合初始化网络爬虫，利用网络爬虫不断的对它已爬取过的知识语料网页进行访问。例如，可利用HTTP协议发送HEAD请求，获取知识语料页面的头部信息。根据HTTP协议发送的HEAD请求响应返回的知识语料页面的头部信息，从头部信息中提取页面内容最后一次发生变化的时间(Last-Modified)，记为t_lm，将知识库当前使用的知识语料页面上次更新的时间记为t_old。若t_old＜_tlm，则说明该语料是发生变化的知识语料，记为C_update，如果t_old≥t_lm，则说明该语料是未发生变化的知识语料，记为C_unchanged。对发生变化的语料用HTTP协议的GET请求获取知识语料的页面内容，对页面进行分析，若发现当前的知识语料集合中不存在的URL，则说明该URL对应的知识语料是新增的知识语料，记为c_new。根据上述判断获得新增的知识语料集合，发生变化的知识语料集合。

在步骤S102，基于所获取的知识语料来识别知识的变化。对新增的知识语料，识别出知识语料中描述的实例，实例的属性和实例所属的概念，对于内容发生变化的知识语料，分析该语料标识的知识的要素的变化情况，识别出变化的知识描述要素。在一个实施例中，可利用知识库构造过程中知识抽取的方法，对于新增的知识语料或发生变化的知识语料，抽取该语料中包含的实例、实例的属性以及实例所属的概念，记为k=＜x，c＞，其中x表示实例本身，x＝＜name，p＞，name表示实例名，p表示实例的属性集合，p＝{p_i|0≤i≤n}，其中p_i=＜pname，pvalue＞，pname表示属性名，pvalue表示属性值，c表示实例所属的概念，从而获取更新的知识集合，可记为K={＜x，c＞}。

在一个实施例中，在步骤S103，基于所识别的知识的变化来更新知识库包括下列步骤：对于从新增的知识语料中识别的实例，则根据实例所属的概念判断知识库中是否存在与之对应的概念；若存在，则将该新增的实例，添加到知识库对应的概念下；若不存在，则在知识库中创建一个新的概念，并将该实例添加到该概念下。对于从内容改变的知识语料中识别的实例信息，则利用新的信息替换知识库中对应的实例的信息。

为了提高更新的效率并维护知识库结构的稳定性，在又一个实施例中，在步骤S103对于所识别的每个实例，例如上文所获取的集合K中的任一实例，执行下列步骤：

步骤31)判断知识库中是否存在与该实例名称相同且所属概念相同的实例，如果存在，则该实例的信息添加到该知识库中对应实例中；如果不存在，执行步骤32)。

步骤32)从知识库中选出与该实例名称相同但所属概念不同的实例，计算每个所选的实例与该实例的匹配度，如果所计算的最大匹配度大于设定的阈值，则该实例的信息添加到知识库中与该实例具有最大匹配度的实例中，否则，执行步骤33)。

在本发明的一个实施例中，通过下面的公式来计算两个实例间的匹配度：

f_md(x，x′)表示实例x和实例x′的匹配度，x.P表示实例x的属性集合，p_i表示实例x的属性集合中的第i个属性；x′.p表示实例x′的属性集合，p_j表示实例x′的属性集合中的第j个属性；sim(p_i，p_j)表示实例x的属性p_i与实例x′的属性p_j之间的相似度。在一个实施例中，对于两实例的任一属性的相似度可以通过计算属性名的文本相似度而得到。可以采用现有的各种方法来计算文本相似度，例如余弦相似度、基于编辑距离的相似度计算方法等等。在又一个实施例中，对于两实例的任一属性的相似度可以通过计算属性名的语义相似度而得到。可以采用现有的各种方法来计算语义相似度，例如基于语义词典、HOWNET等计算语义相似度的方法。在又一个实施例中，对于两实例的任一属性的相似度，可以是通过属性名的文本相似度和语义相似度的线性加权来计算得到。

步骤33)从知识库中查找与该实例所属的概念相匹配的概念，若不存在匹配的概念，则在知识库中创建该概念，并在该概念下创建该实例；若存在匹配的概念，利用上文介绍的匹配度计算方式来计算该匹配的概念下的每个实例与该实例的匹配度，如果所计算的最大匹配度大于设定的阈值，则该实例的信息添加到与该实例具有最大匹配度的实例中，否则，在该匹配的概念下创建该实例。其中，在查找匹配的概念时，可以是查找其名称完全相同的概念，也可以是从知识库中查找与实例x所属概念名的文本相似度或语义相似度最大的概念，如果该最大的文本和/或语义相似度超过了预先设定的阈值，则可以认为从知识库中找到了与实例x的概念相匹配的概念。该预先设定的阈值可以根据系统需求及实际情况而设定。

图2是根据本发明一个实施例的从定期备份的知识语料库中获取更新的知识的过程示意图，该过程主要包括下列步骤：

步骤201，获取新的语料库备份和语料库修改历史备份，以中文维基百科为例，为了获取最新的中文维基百科语料库备份，则可以直接访问以下有关中文维基百科备份的网址：http：//download.wikipedia.com/zhwikisource/，从其下载最新的语料库备份和语料库修改历史备份。

步骤202，根据所获取的新的语料库修改历史，分析知识语料在语料库修改历史中第一次出现的时间t_fda和最后一次出现的时间t_lda，将知识库当前所使用的旧的知识语料库备份(即当前所获取的最新语料库备份的前一个知识语料库备份)的时间记为t_old。以维基百科为例，可以基于开源工具包JWPL(https：//code.google.com/p/jwpl/)，提取知识语料t_fda和t_lda。

步骤203，根据知识库当前使用的旧的知识语料库备份时间t_old和知识语料在其所有修改历史中第一次出现的时间t_fda，判断是否满足t_old＜t_fda，若满足，则说明该知识语料是新增的知识语料，执行步骤204；若不满足，则执行步骤205；

步骤204，从当前所获取的新的语料库备份中，提取新增的知识语料，记为c_new；

步骤205，根据知识库当前使用的旧的知识语料库备份时间t_old和知识语料在其所有修改历史中最后一次出现的时间t_lda，判断是否满足t_old＜t_lda，若满足，则说明该知识语料是内容发生变化的知识语料，执行步骤206；若不满足，则说明该知识语料是未发生变化的知识语料，则终止该语料的处理：

步骤206，从当前所获取的新的语料库备份中，提取内容发生变化的知识语料，记为C_update；

步骤207，对新增的知识语料c_new和发生变化的知识语料C_update，利用知识库构造过程中知识抽取的方法，对新增的知识语料或发生变化的知识语料，抽取语料包含的实例、实例的属性以及实例所属的概念，记为k＝＜x，c＞，其中x表示实例本身，x＝＜name，p＞，name表示实例名，p表示实例的属性集合，P＝{p_i|0≤i≤n}，其中p_i＝＜pname，pvalue＞，pname表示属性名，pvalue表示属性值，c表示实例所属的概念。

图3为根据本发明一个实施例的通过搜索发现的知识语料集合中获取更新的知识的过程示意图，该过程主要包括下列步骤：

步骤301，利用知识库当前使用知识语料集合中对应的URL集合初始化网络爬虫的URL请求队列；

步骤302，网络爬虫从URL请求队列中选择URL，并发送HEAD请求获取知识语料的页面的头部信息；

步骤303，解析网络爬虫HEAD请求响应的页面头部信息，从中提取页面最后一次发生变化的时间t_lm，将知识库当前所使用的知识语料的页面上次更新的时间(即知识库当前使用的知识语料的页面的最后一次发生变化的时间)记为t_old；

步骤304，根据知识库当前使用的知识语料的页面更新的时间t_old和所提取的知识语料最后一次发生变化的时间t_lm，判断是否满足t_old＜t_lm，若满足，则说明该知识语料是发生变化的知识语料，执行步骤305；若不满足，则说明该知识语料是未发生变化的知识语料，则终止该语料的处理；

步骤305，获取内容发生改变的知识语料，记为c_update；

步骤306，利用网络爬虫直接爬取该知识语料对应的最新的页面内容，获取内容发生改变的最新的知识语料内容；

步骤307，对内容发生改变的最新的知识语料C_update的页面内容进行解析，提取页面包含的URL列表；

步骤308，根据知识库当前使用的知识语料集合对应的URL集合，判断c_update的页面中包含的URL是否已存在于知识语料集合对应的URL集合中，若存在，则说明该URL对应的知识语料不是新增的知识语料；若不存在，则说明该URL对应的知识语料为新增的知识语料，将该URL加入到网络爬虫URL请求队列中，执行步骤309；

步骤309，通过步骤308获取知识语料库中新增的知识语料c_new；

步骤310，该步骤与步骤207相同，对新增的知识语料c_new和发生变化的知识语料C_update，利用知识库构造过程中知识抽取的方法，对新增的知识语料或发生变化的知识语料，抽取语料包含的实例、实例的属性以及实例所属的概念，记为k＝＜x，c＞，其中x表示实例本身，x＝＜name，P＞，name表示实例名，p表示实例的属性集合，P＝{p_i|0≤i≤n}，其中pi＝＜pname，pvalue＞，pname表示属性名，pvalue表示属性值，c表示实例所属的概念。

图4为根据本发明一个实施例的根据所识别的知识变化更新知识库的过程示意图。该过程主要包括下列步骤：

步骤401，从所获取的更新的知识集合K中选择一个更新的实例＜x，c＞；

步骤402，查找知识库KB对应的实例＜x′，c′＞，且满足x.name＝x′.name并且c.name＝c′.name；

步骤403，如果知识库KB中，存在这样的实例＜x′，c′＞，满足x.name＝x′.name并且c.name＝c′.name，则说明知识库KB中存在＜x′，C′＞与＜x，c＞直接匹配，执行步骤411；若不存在，则说明知识库KB中不存在＜x′，C′＞与＜x，c＞直接匹配，执行步骤404；

步骤404，从知识库KB中，选择所有的满足x.name＝x′.name，但c.name≠c′.name的实例集合I＝{＜x′，c′＞}；

步骤405，对C′＞∈I，将其与＜x，c＞进行匹配，基于实例的属性之间的相似度，计算两者之间的匹配度f_md(MD，Matched Degree)，获取＜x，c＞与实例集合I＝{＜x′，c′＞}中各实例的匹配度的最大值，即最大匹配度maxf_md；

在一个实施例中，采用如下公式计算＜x，c＞与＜x′，c′＞的匹配度：

其中，sim(p_i，p_j)表示属性p_i与p_j之间的相似度，sim(p_i，p_j)包括两部分：p_i与p_j的文本相似度st(p_i，p_j)和p_i与p_j的语义相似度sm(p_i，p_j)。sim(p_i，p_j)采用属性p_i与p_j之间的文本相似度和属性相似度的线性加权计算，采用如下公式计算：

sim(p_i，p_j)＝λst(p_i，p_j)+(1-λ)sm(p_i，p_j)

其中，可以根据需求来设置λ，例如0.5，属性之间的文本相似度st(p_i，p_j)是通过属性名之间的编辑距离计算的(编辑距离是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数，许可的编辑操作包括替换、插入、删除)，可采用如下公式计算：

其中，edit(p_i.pname，p_j.pname)为编辑距离。

属性之间的语义相似度sm(p_i，p_j)可以是基于《同义词词林》通过属性名在同义词词林中的编码的相似度计算的，采用如下公式计算：

其中，#c表示同义词词林对词编码的位数，c_p.pname表示实例属性p.pname对应的同义词词林的编码，#(c_pi.pname，C_pj.pname)表示p_i与p_j属性名对应的相同的编码位数。

实例＜x，c＞与实例集合I＝{＜x′，c′＞}中所有实例的最大匹配度maxf_md为：

步骤406，根据实例＜x，c＞与实例集合I＝{＜x′，c′＞}中所有实例的最大匹配度maxf_md；判断实例集合I中是否存在于＜x，c＞匹配的实例，若maxf_md小于预先设定的实例匹配度阈值μ(例如，取μ为0.9，0≤μ≤1，μ取1表示要求完全匹配)，则表示实例集合I中不存在与实例＜x，c＞匹配的实例＜x′，c′＞，执行步骤407；否则，则表示实例集合I中存在与实例＜x，c＞匹配的实例＜x′，c′＞，执行步骤411；

步骤407，基于语义词典(例如，可采用《同义词词林》作为语义词典)，查找知识库KB中与实例x的概念c匹配的概念c′；

步骤408，判断知识库KB中是否存在与实例x的概念c匹配的概念c′，若存在，则执行步骤409；若不存在，则执行步骤413；

步骤409，根据知识库KB中与实例x的概念c匹配的概念c′，查找概念c′下所有关联的实例集合I＝{＜x′，c′＞}；

步骤410，根据步骤405和步骤406，判断实例集合I＝{＜x′，c′＞}中是否存在与＜x，c＞匹配的实例＜x′，c′＞，若存在，则执行步骤411；若不存在，则执行步骤412；

步骤411，将实例＜x，c＞对应的信息添加到知识库实例＜x′，c′＞中；

步骤412，在知识库KB的概念c′下创建一个新的实例x′，并将实例x的信息复制到x′中；

步骤413，在知识库KB中新创建一个概念c′(c′＝c)并在c′下创建一个新的实例x′，并将x的信息复制到x′中。

在本发明的又一个实施例中，还提供了一种面向在线百科的知识库自动更新的系统，该系统包括知识语料变化感知适配器和知识同步适配器。其中知识语料变化感知适配器根据如上文讨论的方法实时监控知识库的知识语料来源，根据知识语料更新时间和知识语料内容变化，获取新增的知识语料与内容改变的知识语料并识别新增的知识和发生改变的知识，其中所识别的知识包括实例、实例的属性以及实例所属的概念。知识同步适配器根据上文所讨论的方法，将所识别的知识来更新到知识库中。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种面向在线百科的知识库自动更新的方法，该方法包括：

步骤3，基于所识别的知识来更新知识库；

其中，所述知识语料来源包括定期备份的知识语料库，所述步骤1包括：

如果所述第一次出现的时间小于或等于知识库当前使用的知识语料库备份的时间，并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间，则确定该知识语料是内容改变的知识语料。

2.根据权利要求1所述的方法，在所述步骤1中，所述知识语料来源还包括通过网络搜索采集的知识语料的集合，所述步骤1包括：

3.根据权利要求1所述的方法，所述步骤3包括：

对于从新增的知识语料中识别的实例，则根据该实例所属的概念判断知识库中是否存在与之对应的概念；若存在，则将该实例，添加到知识库对应的概念下；若不存在，则在知识库中创建一个新的概念，并将该实例添加到该概念下；

4.根据权利要求1所述的方法，所述步骤3中对于所识别的每个实例执行下列步骤：

步骤32)从知识库中选出与该实例名称相同但所属概念不同的实例，计算每个所选出的实例与该实例的匹配度，如果所计算的最大匹配度大于设定的阈值，则该实例的信息添加到与该实例具有最大匹配度的实例中，否则，执行步骤33)；

5.根据权利要求4所述的方法，在所述步骤32)和步骤33)中，通过下面的公式来计算两个实例间的匹配度：

f_{m d} (x, x^{'}) = \underset{p_{i} &Element; x . P}{Σ} \underset{p_{j} &Element; x^{'} . P}{m a x} s i m (p_{i}, p_{j})

其中，f_md(x,x′)表示实例x和实例x′的匹配度，x.P表示实例x的属性集合，p_i表示实例x的属性集合中的第i个属性；x′.P表示实例x′的属性集合，p_j表示实例x′的属性集合中的第j个属性；sim(p_i,p_j)表示属性p_i与p_j之间的相似度。

6.根据权利要求5所述的方法，其中属性p_i与p_j之间的相似度为属性p_i与p_j的属性名的文本相似度和p_i与p_j的属性名的语义相似度的线性加权。

7.根据权利要求5所述的方法，其中属性p_i与p_j之间的相似度为属性p_i与p_j的属性名的文本相似度。

8.根据权利要求5所述的方法，其中属性p_i与p_j之间的相似度为属性p_i与p_j的属性名的语义相似度。

9.一种面向在线百科的知识库自动更新的系统，该系统包括：

用于实时监控知识库的知识语料来源，根据知识语料更新时间和知识语料内容变化，获取新增的知识语料与内容改变的知识语料的监控装置；

用于从所获取的知识语料识别其表示的知识的识别装置，其中所识别的知识包括实例、实例的属性以及实例所属的概念；

用于基于所识别的知识来更新知识库的更新装置；

其中，所述知识语料来源包括定期备份的知识语料库，所述监控装置被配置为用于：