CN103823879B - 面向在线百科的知识库自动更新方法及系统 - Google Patents

面向在线百科的知识库自动更新方法及系统 Download PDF

Info

Publication number
CN103823879B
CN103823879B CN201410072608.5A CN201410072608A CN103823879B CN 103823879 B CN103823879 B CN 103823879B CN 201410072608 A CN201410072608 A CN 201410072608A CN 103823879 B CN103823879 B CN 103823879B
Authority
CN
China
Prior art keywords
knowledge
language material
time
attribute
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410072608.5A
Other languages
English (en)
Other versions
CN103823879A (zh
Inventor
程学旗
王元卓
林海伦
贾岩涛
熊锦华
许洪波
冯凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201410072608.5A priority Critical patent/CN103823879B/zh
Publication of CN103823879A publication Critical patent/CN103823879A/zh
Application granted granted Critical
Publication of CN103823879B publication Critical patent/CN103823879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。

Description

面向在线百科的知识库自动更新方法及系统
技术领域
本发明涉及网络知识库,尤其涉及网络知识库自动更新方法及系统。
背景技术
知识库通常包含一组概念、实例和关系的集合,是结构化、全面有组织的知识集群,是采用某种知识表示方式组织、管理和使用的互相联系的知识集合。这些知识包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。在知识工程领域中,知识描述的要素一般包括概念、实例、关系和属性四个要素。
近年来,构建知识库是国内外工业界开发和学术界研究的一个热点,目前,世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的知识库有DBpedia、YAGO、Probase、WikiTaxonomy、Freebase、Omega等。知识库之所以得到广泛关注,原因在于知识库在很多应用中起到至关重要的作用,如在搜索引擎中,Google、Bing、百度、搜狗等使用知识库帮助理解用户查询、感知用户查询意图、进行查询扩展和查询问答等;在Deep Web资源发现中,知识库可以辅助进行Deep Web查询选择;在社交网络中,知识库可以辅助挖掘社交数据等。
而在知识库构造中,在线百科(如Wikipedia、百度百科、互动百科等)作为聚集互联网用户的群体智慧建立的大规模、随时间演化、可分享的网络百科全书,成为构造知识库首选的知识语料来源。在线百科知识语料,比起结构性较弱的普通网页,其包含的百科词条不仅具有较高的质量而且可以保证所得到知识的精度,因此,在线百科数据成为构造知识库的重要语料来源,很多知识库都是基于百科数据构造的,如:DBpedia、YAGO、WikiTaxonomy、Omega等。然而,在线百科数据是随时间不断演化的,其在不断的增加、删除和修改,因此,为了保持知识库的时新性,在最大程度上避免知识库的滞后,需要不断对知识库进行更新,以适应用户对知识的实时性的需求。知识库的更新可分为两个层面的工作:一是已有知识的更新;二是新的知识的加入。
目前,专门针对知识库的更新的工作较少,很多工作都是从数据库更新的角度展开,如对数据库数据的增加、删除和修改等。从更新方式来讲,知识库的更新方法可分为两类:一种是定期重建的方式,另一种是实时更新的方式。
a)定期重建的方式。该方式本质上是一种离线更新的方式:按照知识库构造的方法,定期在知识语料源上重新执行知识库构造流程,从而得到最新的知识库,这种方式虽然操作简单,但是仍然存在很多缺陷,例如,知识库更新过程耗时长、难以重用知识库构造过程中人工修正的工作、无法满足适应用户对知识的时新性的需求。
b)实时更新的方式。该方式定期采集数据源,检测数据源内容的变化,将发生变化的内容提供给领域专家,由人工判断发生变化的内容涉及哪些知识,或者基于由专家制定的各种规则来判断哪些知识发生了变化并将其同步到知识库中,从而得到更新的知识库。这种方式存在以下局限性:(1)难以编写完备的规则表示知识的增加、删除、修改等;(2)难以满足用户实时更新的需求。
综上所述,目前,对知识库的更新仍然没有很有效的方法,尤其是在面对用户对知识的实时性更新需求方面,远远达不到用户的要求。在更新数据的自动化感知方面,缺乏有效的办法能够自动识别知识的变化,和能够动态响应这些变化的更新机制。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种面向在线百科的知识库自动更新的方法。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种面向在线百科的知识库自动更新的方法,包括:
步骤1,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;
步骤2,从所获取的知识语料识别其表示的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念;
步骤3,基于所识别的知识来更新知识库。
在上述技术方案中,在步骤1中,所述知识语料来源可包括定期备份的知识语料库,所述步骤1可包括:
从该知识语料库的源网站获取新的语料库备份和语料库修改历史;
对于所获取的新的语料库备份中的每个知识语料,获取该知识语料在语料库修改历史中第一次出现的时间和最后一次出现的时间,
如果所述第一次出现的时间大于与知识库当前使用的知识语料库备份的时间,则确定该知识语料是新增的知识语料;
如果所述第一出现的时间小于或等于知识库当前使用的知识语料库备份的时间,并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间,则确定该知识语料是内容改变的知识语料。
在上述技术方案中,在步骤1中所述知识语料来源还可包括通过网络搜索采集的知识语料的集合,所述步骤1还可包括:
基于知识库当前使用的知识语料集合中各知识语料对应URL发送HTTP请求;
从对该HTTP请求的响应的头部信息中提取该知识语料的页面内容最后一次发生变化的时间;
如果所述最后一次发生变化的时间大于知识库当前所使用的该知识语料页面上次更新的时间,则确定该知识语料是内容改变的知识语料;
对所确定的内容改变的知识语料的页面内容进行分析,若发现当前的知识语料集合中不存在的URL,则该URL对应的知识语料是新增的知识语料。
在上述技术方案中,所述步骤3可包括:
对于从新增的知识语料中识别的实例,则根据实例所属的概念判断知识库中是否存在与之对应的概念;若存在,则将该新增的实例,添加到知识库对应的概念下;若不存在,则在知识库中创建一个新的概念,并将该实例添加到该概念下;
对于从内容改变的知识语料中识别的实例信息,则利用该实例信息替换知识库中对应的实例的信息。
在上述技术方案中,所述步骤3中对于所识别的每个实例可执行下列步骤:
步骤31)判断知识库中是否存在与该实例名称且所属概念相同的实例,如果存在,则该实例的信息添加到该知识库中对应实例中;如果不存在,则执行步骤32);
步骤32)从知识库中选出与该实例名称相同但所述概念不同的实例,计算每个所选出的实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到与该实例具有最大匹配度的实例中,否则,执行步骤33);
步骤33)从知识库中查找与该实例所属的概念相匹配的概念,若不存在匹配的概念,则在知识库中创建该概念,并在该概念下创建该实例;若存在匹配的概念,计算该匹配的概念下的每个实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到与该实例具有最大匹配度的实例中,否则,在该匹配的概念下创建该实例。
在上述技术方案中,在所述步骤32)和步骤33)中,可以通过下面的公式来计算两个实例间的匹配度:
其中,fmd(x,x′)表示实例x和实例x′的匹配度,x.P表示实例x的属性集合,pi表示实例x的属性集合中的第i个属性;x′.p表示实例x′的属性集合,pj表示实例x′的属性集合中的第j个属性;sim(pi,pj)表示属性pi与pj之间的相似度。
在上述技术方案中,属性pi与pj之间的相似度可以为属性pi与pj的属性名的文本相似度和pi与pj的属性名的语义相似度的线性加权。
在上述技术方案中,属性pi与pj之间的相似度可以为属性pi与pj的属性名的文本相似度。
在上述技术方案中,属性pi与pj之间的相似度可以为属性pi与pj的属性名的语义相似度。
又一方面,本发明提供了一种面向在线百科的知识库自动更新的系统,包括:
用于实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料的装置;
用于从所获取的知识语料识别其表示的知识的装置,其中所识别的知识包括实例、实例的属性以及实例所属的概念;
用于基于所识别的知识来更新知识库的装置。
与现有技术相比,本发明的优点在于:
实时监控知识库语料来源,根据知识语料更新时间和知识语料内容变化,获取不同状态的知识语料,从而实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,从而实现知识库的更新,避免知识库的滞后性,满足用户对知识库时新性的要求。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的面向在线百科的知识库自动更新的方法的流程示意图;
图2为根据本发明一个实施例的从定期备份的知识语料库中获取更新的知识的过程示意图;
图3为根据本发明一个实施例的通过网络搜索采集的知识语料集合中获取更新的知识的过程示意图;
图4为根据本发明一个实施例的根据所识别的知识变化更新知识库的过程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为根据本发明实施例的面向在线百科的知识库自动更新的方法的流程示意图。该方法包括:步骤S101,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取不同状态的知识语料;步骤S102,基于所获取的知识语料来识别知识的变化;步骤S103,基于所识别的知识的变化来更新知识库。
在步骤S101,实时监控知识语料来源,根据知识语料更新时间和知识语料内容变化,可获取不同状态的知识语料。其中不同状态的知识语料例如可包括新增语料,内容改变语料和保持不变语料以及删除的语料。通常可以通过对用于更新知识库的知识语料来源进行实时监控或定期采集的方式来获取知识语料。用于更新知识库的知识语料来源通常包括专用的知识语料库,例如维基百科、百度百科等,以及通过网络搜索采集的知识语料的集合。
其中,例如维基百科等专用的知识语料库,该知识语料库所在的源网站本身会定期备份知识语料库,并且会保留语料库的修改历史。因此,对于这种会定期备份的知识语料库,可以直接获取新的语料库备份和语料库修改历史。然后,分析知识语料在语料库修改历史中第一次出现的时间(FDA,First Date of Appearance)(记为tfda)和最后一次出现的时间(LDA,Last Date ofAppearance)(记为tlda),将知识库当前使用的知识语料库备份的时间记为told。如果told<tfda,则说明该语料是新增的知识语料,记为cnew;如果tfda≤told<tlda,则说明该语料是发生变化的知识语料,记为Cupdate,如果told≥tlda,则说明该语料是未发生变化的知识语料,记为Cunchanged。根据上述判断获得新增的知识语料集合,发生变化的知识语料集合;
对于通过网络搜索采集的知识语料的集合,可以利用知识库当前使用的知识语料集合对应的URL集合初始化网络爬虫,利用网络爬虫不断的对它已爬取过的知识语料网页进行访问。例如,可利用HTTP协议发送HEAD请求,获取知识语料页面的头部信息。根据HTTP协议发送的HEAD请求响应返回的知识语料页面的头部信息,从头部信息中提取页面内容最后一次发生变化的时间(Last-Modified),记为tlm,将知识库当前使用的知识语料页面上次更新的时间记为told。若toldtlm,则说明该语料是发生变化的知识语料,记为Cupdate,如果told≥tlm,则说明该语料是未发生变化的知识语料,记为Cunchanged。对发生变化的语料用HTTP协议的GET请求获取知识语料的页面内容,对页面进行分析,若发现当前的知识语料集合中不存在的URL,则说明该URL对应的知识语料是新增的知识语料,记为cnew。根据上述判断获得新增的知识语料集合,发生变化的知识语料集合。
在步骤S102,基于所获取的知识语料来识别知识的变化。对新增的知识语料,识别出知识语料中描述的实例,实例的属性和实例所属的概念,对于内容发生变化的知识语料,分析该语料标识的知识的要素的变化情况,识别出变化的知识描述要素。在一个实施例中,可利用知识库构造过程中知识抽取的方法,对于新增的知识语料或发生变化的知识语料,抽取该语料中包含的实例、实例的属性以及实例所属的概念,记为k=<x,c>,其中x表示实例本身,x=<name,p>,name表示实例名,p表示实例的属性集合,p={pi|0≤i≤n},其中pi=<pname,pvalue>,pname表示属性名,pvalue表示属性值,c表示实例所属的概念,从而获取更新的知识集合,可记为K={<x,c>}。
在一个实施例中,在步骤S103,基于所识别的知识的变化来更新知识库包括下列步骤:对于从新增的知识语料中识别的实例,则根据实例所属的概念判断知识库中是否存在与之对应的概念;若存在,则将该新增的实例,添加到知识库对应的概念下;若不存在,则在知识库中创建一个新的概念,并将该实例添加到该概念下。对于从内容改变的知识语料中识别的实例信息,则利用新的信息替换知识库中对应的实例的信息。
为了提高更新的效率并维护知识库结构的稳定性,在又一个实施例中,在步骤S103对于所识别的每个实例,例如上文所获取的集合K中的任一实例,执行下列步骤:
步骤31)判断知识库中是否存在与该实例名称相同且所属概念相同的实例,如果存在,则该实例的信息添加到该知识库中对应实例中;如果不存在,执行步骤32)。
步骤32)从知识库中选出与该实例名称相同但所属概念不同的实例,计算每个所选的实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到知识库中与该实例具有最大匹配度的实例中,否则,执行步骤33)。
在本发明的一个实施例中,通过下面的公式来计算两个实例间的匹配度:
fmd(x,x′)表示实例x和实例x′的匹配度,x.P表示实例x的属性集合,pi表示实例x的属性集合中的第i个属性;x′.p表示实例x′的属性集合,pj表示实例x′的属性集合中的第j个属性;sim(pi,pj)表示实例x的属性pi与实例x′的属性pj之间的相似度。在一个实施例中,对于两实例的任一属性的相似度可以通过计算属性名的文本相似度而得到。可以采用现有的各种方法来计算文本相似度,例如余弦相似度、基于编辑距离的相似度计算方法等等。在又一个实施例中,对于两实例的任一属性的相似度可以通过计算属性名的语义相似度而得到。可以采用现有的各种方法来计算语义相似度,例如基于语义词典、HOWNET等计算语义相似度的方法。在又一个实施例中,对于两实例的任一属性的相似度,可以是通过属性名的文本相似度和语义相似度的线性加权来计算得到。
步骤33)从知识库中查找与该实例所属的概念相匹配的概念,若不存在匹配的概念,则在知识库中创建该概念,并在该概念下创建该实例;若存在匹配的概念,利用上文介绍的匹配度计算方式来计算该匹配的概念下的每个实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到与该实例具有最大匹配度的实例中,否则,在该匹配的概念下创建该实例。其中,在查找匹配的概念时,可以是查找其名称完全相同的概念,也可以是从知识库中查找与实例x所属概念名的文本相似度或语义相似度最大的概念,如果该最大的文本和/或语义相似度超过了预先设定的阈值,则可以认为从知识库中找到了与实例x的概念相匹配的概念。该预先设定的阈值可以根据系统需求及实际情况而设定。
图2是根据本发明一个实施例的从定期备份的知识语料库中获取更新的知识的过程示意图,该过程主要包括下列步骤:
步骤201,获取新的语料库备份和语料库修改历史备份,以中文维基百科为例,为了获取最新的中文维基百科语料库备份,则可以直接访问以下有关中文维基百科备份的网址:http://download.wikipedia.com/zhwikisource/,从其下载最新的语料库备份和语料库修改历史备份。
步骤202,根据所获取的新的语料库修改历史,分析知识语料在语料库修改历史中第一次出现的时间tfda和最后一次出现的时间tlda,将知识库当前所使用的旧的知识语料库备份(即当前所获取的最新语料库备份的前一个知识语料库备份)的时间记为told。以维基百科为例,可以基于开源工具包JWPL(https://code.google.com/p/jwpl/),提取知识语料tfda和tlda
步骤203,根据知识库当前使用的旧的知识语料库备份时间told和知识语料在其所有修改历史中第一次出现的时间tfda,判断是否满足told<tfda,若满足,则说明该知识语料是新增的知识语料,执行步骤204;若不满足,则执行步骤205;
步骤204,从当前所获取的新的语料库备份中,提取新增的知识语料,记为cnew
步骤205,根据知识库当前使用的旧的知识语料库备份时间told和知识语料在其所有修改历史中最后一次出现的时间tlda,判断是否满足told<tlda,若满足,则说明该知识语料是内容发生变化的知识语料,执行步骤206;若不满足,则说明该知识语料是未发生变化的知识语料,则终止该语料的处理:
步骤206,从当前所获取的新的语料库备份中,提取内容发生变化的知识语料,记为Cupdate
步骤207,对新增的知识语料cnew和发生变化的知识语料Cupdate,利用知识库构造过程中知识抽取的方法,对新增的知识语料或发生变化的知识语料,抽取语料包含的实例、实例的属性以及实例所属的概念,记为k=<x,c>,其中x表示实例本身,x=<name,p>,name表示实例名,p表示实例的属性集合,P={pi|0≤i≤n},其中pi=<pname,pvalue>,pname表示属性名,pvalue表示属性值,c表示实例所属的概念。
图3为根据本发明一个实施例的通过搜索发现的知识语料集合中获取更新的知识的过程示意图,该过程主要包括下列步骤:
步骤301,利用知识库当前使用知识语料集合中对应的URL集合初始化网络爬虫的URL请求队列;
步骤302,网络爬虫从URL请求队列中选择URL,并发送HEAD请求获取知识语料的页面的头部信息;
步骤303,解析网络爬虫HEAD请求响应的页面头部信息,从中提取页面最后一次发生变化的时间tlm,将知识库当前所使用的知识语料的页面上次更新的时间(即知识库当前使用的知识语料的页面的最后一次发生变化的时间)记为told
步骤304,根据知识库当前使用的知识语料的页面更新的时间told和所提取的知识语料最后一次发生变化的时间tlm,判断是否满足told<tlm,若满足,则说明该知识语料是发生变化的知识语料,执行步骤305;若不满足,则说明该知识语料是未发生变化的知识语料,则终止该语料的处理;
步骤305,获取内容发生改变的知识语料,记为cupdate
步骤306,利用网络爬虫直接爬取该知识语料对应的最新的页面内容,获取内容发生改变的最新的知识语料内容;
步骤307,对内容发生改变的最新的知识语料Cupdate的页面内容进行解析,提取页面包含的URL列表;
步骤308,根据知识库当前使用的知识语料集合对应的URL集合,判断cupdate的页面中包含的URL是否已存在于知识语料集合对应的URL集合中,若存在,则说明该URL对应的知识语料不是新增的知识语料;若不存在,则说明该URL对应的知识语料为新增的知识语料,将该URL加入到网络爬虫URL请求队列中,执行步骤309;
步骤309,通过步骤308获取知识语料库中新增的知识语料cnew
步骤310,该步骤与步骤207相同,对新增的知识语料cnew和发生变化的知识语料Cupdate,利用知识库构造过程中知识抽取的方法,对新增的知识语料或发生变化的知识语料,抽取语料包含的实例、实例的属性以及实例所属的概念,记为k=<x,c>,其中x表示实例本身,x=<name,P>,name表示实例名,p表示实例的属性集合,P={pi|0≤i≤n},其中pi=<pname,pvalue>,pname表示属性名,pvalue表示属性值,c表示实例所属的概念。
图4为根据本发明一个实施例的根据所识别的知识变化更新知识库的过程示意图。该过程主要包括下列步骤:
步骤401,从所获取的更新的知识集合K中选择一个更新的实例<x,c>;
步骤402,查找知识库KB对应的实例<x′,c′>,且满足x.name=x′.name并且c.name=c′.name;
步骤403,如果知识库KB中,存在这样的实例<x′,c′>,满足x.name=x′.name并且c.name=c′.name,则说明知识库KB中存在<x′,C′>与<x,c>直接匹配,执行步骤411;若不存在,则说明知识库KB中不存在<x′,C′>与<x,c>直接匹配,执行步骤404;
步骤404,从知识库KB中,选择所有的满足x.name=x′.name,但c.name≠c′.name的实例集合I={<x′,c′>};
步骤405,对C′>∈I,将其与<x,c>进行匹配,基于实例的属性之间的相似度,计算两者之间的匹配度fmd(MD,Matched Degree),获取<x,c>与实例集合I={<x′,c′>}中各实例的匹配度的最大值,即最大匹配度maxfmd
在一个实施例中,采用如下公式计算<x,c>与<x′,c′>的匹配度:
其中,sim(pi,pj)表示属性pi与pj之间的相似度,sim(pi,pj)包括两部分:pi与pj的文本相似度st(pi,pj)和pi与pj的语义相似度sm(pi,pj)。sim(pi,pj)采用属性pi与pj之间的文本相似度和属性相似度的线性加权计算,采用如下公式计算:
sim(pi,pj)=λst(pi,pj)+(1-λ)sm(pi,pj)
其中,可以根据需求来设置λ,例如0.5,属性之间的文本相似度st(pi,pj)是通过属性名之间的编辑距离计算的(编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数,许可的编辑操作包括替换、插入、删除),可采用如下公式计算:
其中,edit(pi.pname,pj.pname)为编辑距离。
属性之间的语义相似度sm(pi,pj)可以是基于《同义词词林》通过属性名在同义词词林中的编码的相似度计算的,采用如下公式计算:
其中,#c表示同义词词林对词编码的位数,cp.pname表示实例属性p.pname对应的同义词词林的编码,#(cpi.pname,Cpj.pname)表示pi与pj属性名对应的相同的编码位数。
实例<x,c>与实例集合I={<x′,c′>}中所有实例的最大匹配度maxfmd为:
步骤406,根据实例<x,c>与实例集合I={<x′,c′>}中所有实例的最大匹配度maxfmd;判断实例集合I中是否存在于<x,c>匹配的实例,若maxfmd小于预先设定的实例匹配度阈值μ(例如,取μ为0.9,0≤μ≤1,μ取1表示要求完全匹配),则表示实例集合I中不存在与实例<x,c>匹配的实例<x′,c′>,执行步骤407;否则,则表示实例集合I中存在与实例<x,c>匹配的实例<x′,c′>,执行步骤411;
步骤407,基于语义词典(例如,可采用《同义词词林》作为语义词典),查找知识库KB中与实例x的概念c匹配的概念c′;
步骤408,判断知识库KB中是否存在与实例x的概念c匹配的概念c′,若存在,则执行步骤409;若不存在,则执行步骤413;
步骤409,根据知识库KB中与实例x的概念c匹配的概念c′,查找概念c′下所有关联的实例集合I={<x′,c′>};
步骤410,根据步骤405和步骤406,判断实例集合I={<x′,c′>}中是否存在与<x,c>匹配的实例<x′,c′>,若存在,则执行步骤411;若不存在,则执行步骤412;
步骤411,将实例<x,c>对应的信息添加到知识库实例<x′,c′>中;
步骤412,在知识库KB的概念c′下创建一个新的实例x′,并将实例x的信息复制到x′中;
步骤413,在知识库KB中新创建一个概念c′(c′=c)并在c′下创建一个新的实例x′,并将x的信息复制到x′中。
在本发明的又一个实施例中,还提供了一种面向在线百科的知识库自动更新的系统,该系统包括知识语料变化感知适配器和知识同步适配器。其中知识语料变化感知适配器根据如上文讨论的方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料并识别新增的知识和发生改变的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念。知识同步适配器根据上文所讨论的方法,将所识别的知识来更新到知识库中。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (9)

1.一种面向在线百科的知识库自动更新的方法,该方法包括:
步骤1,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;
步骤2,从所获取的知识语料识别其表示的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念;
步骤3,基于所识别的知识来更新知识库;
其中,所述知识语料来源包括定期备份的知识语料库,所述步骤1包括:
从该知识语料库的源网站获取新的语料库备份和语料库修改历史;
对于所获取的新的语料库备份中的每个知识语料,获取该知识语料在语料库修改历史中第一次出现的时间和最后一次出现的时间,
如果所述第一次出现的时间大于与知识库当前使用的知识语料库备份的时间,则确定该知识语料是新增的知识语料;
如果所述第一次出现的时间小于或等于知识库当前使用的知识语料库备份的时间,并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间,则确定该知识语料是内容改变的知识语料。
2.根据权利要求1所述的方法,在所述步骤1中,所述知识语料来源还包括通过网络搜索采集的知识语料的集合,所述步骤1包括:
基于知识库当前使用的知识语料集合中各知识语料对应URL发送HTTP请求;
从对该HTTP请求的响应的头部信息中提取该知识语料的页面内容最后一次发生变化的时间;
如果所述最后一次发生变化的时间大于知识库当前所使用的该知识语料页面上次更新的时间,则确定该知识语料是内容改变的知识语料;
对所确定的内容改变的知识语料的页面内容进行分析,若发现当前的知识语料集合中不存在的URL,则该URL对应的知识语料是新增的知识语料。
3.根据权利要求1所述的方法,所述步骤3包括:
对于从新增的知识语料中识别的实例,则根据该实例所属的概念判断知识库中是否存在与之对应的概念;若存在,则将该实例,添加到知识库对应的概念下;若不存在,则在知识库中创建一个新的概念,并将该实例添加到该概念下;
对于从内容改变的知识语料中识别的实例信息,则利用该实例信息替换知识库中对应的实例的信息。
4.根据权利要求1所述的方法,所述步骤3中对于所识别的每个实例执行下列步骤:
步骤31)判断知识库中是否存在与该实例名称且所属概念相同的实例,如果存在,则该实例的信息添加到该知识库中对应实例中;如果不存在,则执行步骤32);
步骤32)从知识库中选出与该实例名称相同但所属概念不同的实例,计算每个所选出的实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到与该实例具有最大匹配度的实例中,否则,执行步骤33);
步骤33)从知识库中查找与该实例所属的概念相匹配的概念,若不存在匹配的概念,则在知识库中创建该概念,并在该概念下创建该实例;若存在匹配的概念,计算该匹配的概念下的每个实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到与该实例具有最大匹配度的实例中,否则,在该匹配的概念下创建该实例。
5.根据权利要求4所述的方法,在所述步骤32)和步骤33)中,通过下面的公式来计算两个实例间的匹配度:
f m d ( x , x ′ ) = Σ p i ∈ x . P m a x p j ∈ x ′ . P s i m ( p i , p j )
其中,fmd(x,x′)表示实例x和实例x′的匹配度,x.P表示实例x的属性集合,pi表示实例x的属性集合中的第i个属性;x′.P表示实例x′的属性集合,pj表示实例x′的属性集合中的第j个属性;sim(pi,pj)表示属性pi与pj之间的相似度。
6.根据权利要求5所述的方法,其中属性pi与pj之间的相似度为属性pi与pj的属性名的文本相似度和pi与pj的属性名的语义相似度的线性加权。
7.根据权利要求5所述的方法,其中属性pi与pj之间的相似度为属性pi与pj的属性名的文本相似度。
8.根据权利要求5所述的方法,其中属性pi与pj之间的相似度为属性pi与pj的属性名的语义相似度。
9.一种面向在线百科的知识库自动更新的系统,该系统包括:
用于实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料的监控装置;
用于从所获取的知识语料识别其表示的知识的识别装置,其中所识别的知识包括实例、实例的属性以及实例所属的概念;
用于基于所识别的知识来更新知识库的更新装置;
其中,所述知识语料来源包括定期备份的知识语料库,所述监控装置被配置为用于:
从该知识语料库的源网站获取新的语料库备份和语料库修改历史;
对于所获取的新的语料库备份中的每个知识语料,获取该知识语料在语料库修改历史中第一次出现的时间和最后一次出现的时间,
如果所述第一次出现的时间大于与知识库当前使用的知识语料库备份的时间,则确定该知识语料是新增的知识语料;
如果所述第一次出现的时间小于或等于知识库当前使用的知识语料库备份的时间,并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间,则确定该知识语料是内容改变的知识语料。
CN201410072608.5A 2014-02-28 2014-02-28 面向在线百科的知识库自动更新方法及系统 Active CN103823879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410072608.5A CN103823879B (zh) 2014-02-28 2014-02-28 面向在线百科的知识库自动更新方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410072608.5A CN103823879B (zh) 2014-02-28 2014-02-28 面向在线百科的知识库自动更新方法及系统

Publications (2)

Publication Number Publication Date
CN103823879A CN103823879A (zh) 2014-05-28
CN103823879B true CN103823879B (zh) 2017-06-16

Family

ID=50758943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410072608.5A Active CN103823879B (zh) 2014-02-28 2014-02-28 面向在线百科的知识库自动更新方法及系统

Country Status (1)

Country Link
CN (1) CN103823879B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335888A (zh) * 2014-07-17 2016-02-17 南方科技大学 市场监察系统及方法
CN105045782A (zh) * 2014-11-14 2015-11-11 国家电网公司 一种铁磁谐振故障知识库构建方法
CN105512484B (zh) * 2015-12-10 2019-03-19 湘潭大学 一种采用特征值相似度的数据关联方法
CN105630942B (zh) * 2015-12-23 2019-05-21 北京奇虎科技有限公司 电子书更新章节的调度方法和装置
CN109118156B (zh) 2017-06-26 2021-10-29 上海颐为网络科技有限公司 一种图书信息协同系统和方法
CN107451129B (zh) * 2017-08-08 2020-09-25 传神语联网网络科技股份有限公司 非常规词语或非常规短句的判断以及翻译方法及其系统
CN110147478B (zh) * 2017-10-20 2021-06-29 中国电信股份有限公司 网页主题词获取方法和系统、服务器与用户终端
CN108197151B (zh) * 2017-12-06 2021-08-03 创新先进技术有限公司 文法库的更新方法及装置
CN108345640B (zh) * 2018-01-12 2021-10-12 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN110263184A (zh) * 2019-06-20 2019-09-20 中国医学科学院医学信息研究所 一种数据处理方法及相关设备
CN111340366B (zh) * 2020-02-26 2022-10-21 中国联合网络通信集团有限公司 结构化知识质量提升方法及设备
CN112084349B (zh) * 2020-09-28 2023-09-05 中国银行股份有限公司 知识库的扩充方法、装置、电子设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
CN101149843A (zh) * 2007-10-10 2008-03-26 深圳先进技术研究院 一种数字城市的继承式自动生成及实时更新方法
CN101334784A (zh) * 2008-07-30 2008-12-31 施章祖 计算机辅助报告与知识库产生的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
CN101149843A (zh) * 2007-10-10 2008-03-26 深圳先进技术研究院 一种数字城市的继承式自动生成及实时更新方法
CN101334784A (zh) * 2008-07-30 2008-12-31 施章祖 计算机辅助报告与知识库产生的方法

Also Published As

Publication number Publication date
CN103823879A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823879B (zh) 面向在线百科的知识库自动更新方法及系统
WO2021103492A1 (zh) 一种企业经营风险预测方法和系统
Zhang et al. BIM log mining: measuring design productivity
CN103995858B (zh) 基于任务分解的个性化知识主动推送方法
Hao et al. Knowledge map-based method for domain knowledge browsing
CN103955463B (zh) 一种政府的政策解构方法及系统
Forbes et al. Tools for selecting appropriate risk management techniques in the built environment
CN105446734A (zh) 一种基于软件开发历史开发人员网络关系构建方法
Zhang et al. Big data versus the crowd: Looking for relationships in all the right places
Ogutu et al. Current trends in sustainable organization management: A bibliometric analysis
JP4700462B2 (ja) データベース利用システム
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
Cuzzola et al. Evolutionary fine-tuning of automated semantic annotation systems
CN107368521A (zh) 一种基于大数据和深度学习的知识推介方法及系统
Chen et al. An expert recommendation system for product empirical knowledge consultation
CN112131259B (zh) 一种相似恶意软件推荐方法、装置、介质和设备
Kaur Web content classification: A survey
Woodside et al. Guest editorial: sense making, dilemmas, and solutions in strategic management
KR101636477B1 (ko) 구조화된 지식정보와 문서수집을 이용한 지식확장 및 검증 시스템, 그 방법, 기록매체
Wu et al. Entity linking in web tables with multiple linked knowledge bases
Pellissier Tanon et al. Neural knowledge base repairs
Basharat et al. Semantically enriched task and workflow automation in crowdsourcing for linked data management
Correa et al. A deep search method to survey data portals in the whole web: toward a machine learning classification model
Chen et al. Demand-driven knowledge acquisition method for enhancing domain ontology integrity
Mullins et al. Practice Makes Perfect: Lesson Learned from Five Years of Trial and Error Building Context-Aware Systems.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant