发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的中文知识图谱构建方法和系统,以节省人力,并提高知识图谱的更新速度。
本发明的一个方面,提供了一种中文知识图谱构建方法,包括:
获取一个或多个网页,所述网页包含网页名称、信息框;
从所述信息框中提取网页的网页属性和网页属性值;
将所述网页与所述预设知识图谱中的实体进行匹配,判定所述网页与所述实体是否相同或相似,如果是,则建立所述网页与所述实体的映射实体对;
确认映射实体对中的所述网页的网页属性值和所述预设知识图谱中的所述实体具有关系的至少一个实体的名称是否相同或相似,如果是,将所述网页属性值链接到网页名称与所述网页属性值相同或相似的外部网页;
根据所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系和所述网页属性值与所述外部网页之间的链接,建立所述网页和所述外部网页之间的映射关系;
根据所述映射关系以及所述网页和所述外部网页构建中文知识图谱。
其中,所述从所述信息框中提取网页的网页属性和网页属性值,包括:
获取信息框中网页的网页属性和所述网页属性对应的属性值;
当所述对应属性值中包括分割标记时,根据所述分隔标记,将对应属性值分隔为多个网页属性值,所述网页属性值的结构是预设的;
其中,所述将所述网页与所述预设知识图谱中的实体进行匹配,判定所述网页与所述实体是否相同或相似,如果是,则建立所述网页与所述实体的映射实体对,包括:
将所述网页名称与预设知识图谱中的实体名称进行匹配,如果匹配结果相同或相似,则建立至少一个包括所述网页与预设知识图谱中的实体的候选实体对;
将所述网页属性值和预设知识图谱中实体名称进行匹配,如果匹配结果相同,则获取所述网页属性值所对应的所述属性,并根据所述对应属性对应的所有网页属性值扩展所述网页名称;
计算扩展后的所述网页名称和预设知识图谱中的网页名称的交集的重合度,并保留所述重合度最大的所述实体对作为映射实体对。
其中,所述计算扩展后的所述网页名称和预设知识图谱中的网页名称的交集,并保留交集最大的所述实体对作为映射实体对,还包括:
计算所述候选实体对中的所述网页的类型和所述预设实体集中的所述实体的类型的相似度,将所述重合度和所述相似度相加的值最大的实体对作为映射实体对。
其中,所述计算所述候选实体对中的所述网页的类型,包括:
将已经建立所述网页类型与预设知识图谱中的实体类型映射的所述网页作为训练数据集;
将已有映射的实体作为推断实体类型的训练数据,建立实体类别、信息框中的网页属性、信息框中网页属性值、所述文本数据的章节标题和所述文本数据的章节子标题的联合概率分布模型;
对于每一个实体,依据所述联合概率分布计算所述实体类型的分布值,最后选取概率分布结果最高的值作为实体类型。
其中,所述网页还包含文本数据;
所述确认映射实体对中的所述网页的网页属性值和所述预设知识图谱中的所述实体具有关系的至少一个实体的名称是否相同或相似,如果是,将所述网页属性值链接到网页名称与所述网页属性值相同或相似的外部网页,包括:
提取映射实体对中所述网页与所述网页属性值之间的关系;
将所述网页属性值与预设知识图谱中的实体的名称进行匹配,如果所述网页属性值与所述预设知识图谱中的实体的名称相同或相似,则将所述网页属性值链接到网页名称与所述网页属性值相同或相似的外部网页,并建立所述网页与所述网页属性值的关系到所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系之间的映射,得到初始谓词映射表。
其中,所述根据所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系和所述网页属性值与所述外部网页之间的链接,建立所述网页和所述外部网页之间的映射关系之后,还包括:
根据所述预设知识图谱建立关系提取任务模型,通过自然语言处理分析文本数据中的句子,获取网页与所述句子中的内部实体的关系,将所述内部实体与预设知识图谱中的实体的名称进行匹配,如果所述内部实体与所述预设知识图谱中的实体的名称相同或相似,则将所述内部实体链接到网页名称与所述内部实体相同或相似的外部网页,并建立所述网页与所述内部实体的关系到所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系之间的映射,将所述映射加入初始谓词映射表,得到扩展谓词映射表,所述内部实体包括所述句子中与所述网页名称有关联的名词。
其中,所述扩展所述谓词映射表之后,所述方法还包括:
根据所述扩展后的谓词映射表以及所述网页和所述外部网页构建中文知识图谱。
其中,所述根据所述扩展后的谓词映射表以及所述网页和所述外部网页构建中文知识图谱之后,所述方法还包括:
依据最小支撑树算法,筛选所述网页与外部网页之间的映射关系。
本发明的一个方面,提供了一种中文知识图谱构建系统,所述系统包括:
获取模块:用于获取一个或多个网页,所述网页包含网页名称、信息框;
提取模块:用于从所述信息框中提取网页的网页属性和网页属性值;
匹配模块:用于将所述网页与所述预设知识图谱中的实体进行匹配,判定所述网页与所述实体是否相同或相似,如果是,则建立所述网页与所述实体的映射实体对;
判定模块:用于确认映射实体对中的所述网页的网页属性值和所述预设知识图谱中的所述实体具有关系的至少一个实体的名称是否相同或相似,如果是,将所述网页属性值链接到网页名称与所述网页属性值相同或相似的外部网页;
关系模块:用于根据所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系和所述网页属性值与所述外部网页之间的链接,建立所述网页和所述外部网页之间的映射关系;
存储模块:用于根据所述映射关系以及所述网页和所述外部网页构建中文知识图谱。
其中,所述提取模块包括预处理子模块和过滤子模块;
所述预处理子模块,用于获取信息框中的网页属性和所述网页属性对应的属性值;
所述过滤子模块,用于当所述对应属性值中包括分割标记时,根据所述分隔标记,将对应属性值分隔为多个网页属性值,所述网页属性值的结构是预设的;
所述过滤子模块,还用于当对应属性值中包含括号时,若检测括号内的值为无用信息时,去除括号内的值,否则,将括号内的值设置为至少一个网页属性值。
本发明的又一个方面,提供了一种中文知识图谱构建装置,所述装置包括:如上所述的系统。
本申请实施例中提供的技术方案,具有如下技术效果或优点:
本发明实施例提供的中文知识图谱构建方法和系统,通过将现有的预设知识图谱的实体和关系与网页和网页关系来做比较,借用预设知识图谱的结构构建以网页为实体的中文知识图谱,以此来实现自动化地构建中文知识图谱,节约了人力成本,减少了错误率,提高了知识图谱的更新速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
现有的知识图谱构建基本上是以百科站点,如维基百科,百度百科,为基础构建知识图谱,其中的大部分的知识是从百科中的结构化信息中抽取的,知识的准确率和召回率高度依赖于人工标注的质量。
本发明实施例利用现有的英文通用知识图谱Freebase,帮助进行中文知识图谱的框架建立、中文知识图谱的实体的类型推断、中文知识图谱的实体的名字信息补全等任务,从而自动化地构建中文知识图谱。
本发明实施例所涉及的预设知识图谱为Freebase,Freebase是个类似Wikipedia的创作共享类网站,网站内的所有内容都由用户添加,采用创意共用许可证,可以自由引用。两者之间最大的不同在于,Freebase中的条目都采用结构化数据的形式,而Wikipedia的数据主要由文本和半结构化的信息框组成,Freebase的结构分为三层:Domain->Type->Topic,其中:
1)在Freebase中,每个条目叫做一个Topic,每个Topic中的固定字段,叫做“属性”(Property);
2)所有同类的Topic组成一个Type,比如所有电影Topic就属于同一个Type,每个Type都有一套固定的Property,因此同类信息可以直接比较和关联;
3)所有相关的Type组成一个“域”(Domain),比如电影、电影演员、电影导演都属于“电影”Domain。
图1示意性示出了本发明一个实施例所涉及的一种中文知识图谱构建方法的流程图。参照图1,本发明实施例具体包括以下步骤:
S101、获取一个或多个网页,所述网页包含网页名称、信息框。
在本发明实施例中,所述网页为百科网页,包括信息框和文本数据,并可通过读取网页源代码等方式获取网页的名称,本发明实施例将百科页面中每一个页面作为一个独立的概念,也即待建知识图谱中的实体,多个网页构成待建的知识图谱的实体集。
S102、从所述信息框中提取网页的网页属性和网页属性值;
在本发明实施例中,S102包括的步骤如下:
获取信息框中网页的网页属性和所述网页属性对应的属性值;
当所述对应属性值中包括分割标记时,根据所述分隔标记,将对应属性值分隔为多个网页属性值,所述网页属性值的结构是预设的。
其中,所述信息框为百科网页中的结构化数据,所述结构化数据包括网页属性和网页属性对应的属性值,将所述网页属性对应的属性值进行预处理后获得网页属性。
具体的,若检测属性值是多值属性的情况,则根据分割值进行分割,所述分割值可能是逗号、顿号、分号、除号。进一步的,对于属性值中括号内的值,若检测发现其经常在括号中出现,则去除,否则作为多值属性的值,所述经常出现在括号中的值,一般是国家、地点、电视台等等。
百科网页中的一些文本数据中会有主语缺失的情况,本发明实施例若检测到一个文本数据中的一个段落是以时间+动词/介词开头或者可表示为“属性:属性值”的形式,则认为此段落的主语是缺失的,并添加当前页面的名称作为主语。
S103、将所述网页与所述预设知识图谱中的实体进行匹配,判定所述网页与所述实体是否相同或相似,如果是,则建立所述网页与所述实体的映射实体对,具体的,步骤S103包括:
将所述网页名称与预设知识图谱中的实体名称进行匹配,如果匹配结果相同或相似,则建立至少一个包括所述网页与预设知识图谱中的实体的候选实体对;
将所述网页名称与预设知识图谱中的实体名称进行匹配,如果匹配结果相同或相似,则建立至少一个包括所述网页与预设知识图谱中的实体的候选实体对;
将所述网页属性值和预设知识图谱中实体名称进行匹配,如果匹配结果相同,则获取所述网页属性值所对应的所述属性,并根据所述对应属性对应的所有网页属性值扩展所述网页名称;
计算扩展后的所述网页名称和预设知识图谱中的网页名称的交集的重合度,并保留所述重合度最大的所述候选实体对作为映射实体对。
其中,所述计算扩展后的所述网页名称和预设知识图谱中的网页名称的交集,并保留交集最大的所述实体对作为映射实体对,还包括:
计算所述候选实体对中的所述网页的类型和所述预设实体集中的所述实体的类型的相似度,将所述重合度和所述相似度相加的值最大的实体对作为映射实体对。
其中,所述计算所述候选实体对中的所述网页的类型,包括:
将已经建立所述网页的类型与预设知识图谱中的实体类型映射的所述网页作为训练数据集;
将已有映射的网页作为推断网页类型的训练数据,建立网页类型、信息框中的网页属性、信息框中网页属性值、所述文本数据的章节标题和所述文本数据的章节子标题的联合概率分布模型;
对于每一个网页,依据所述联合概率分布计算所述网页类型的分布值,最后选取概率分布结果最高的值中的网页类型作为最终的网页类型。
具体的,依据百科网页的名字在Freebase中找到可能表达相同概念的实体,每一对拥有相同名字的候选实体对用(BE,FE)来表示,其中BE是百科中的网页,FE是Freebase中的实体。
在现实中,每一个实体可能都有多个别名,如人们常以“皇马”或者“皇家马德里”来指称“皇家马德里足球俱乐部”,本发明从信息框和摘要中抽取网页别名来扩展网页的名字集。
信息框中的一些属性其实就表示了该网页的别名,如表1中“外文队名”其实就表示了皇马的外文名称。
表1
本发明实施例是确定信息框中表示名称的属性的步骤如下:
对于每一对候选实体对(BE,FE),首先将FE的名字集暂时加入到BE的名字集中,然后遍历信息框中的属性值,若发现属性值的某一项在名字集中,则说明与该属性值对应的属性可能是表示别名属性。遍历完所有的候选实体对之后,将其中出现频次较高的属性作为名字属性,将其对应的属性值作为名字加入网页的名字集中。
百科网页的摘要中也包含了一些未在信息框中的别名,本发明实施例从摘要的第一句话中抽取该网页的别名。类似与信息框的处理方法,对于句子中的每一个子句,若子句的结尾是该网页的名字,如下面的例句中的“前称马德里足球队”,“简称皇马”,那么可以认为该子句的剩余部分即是名字表达的一种模板,所述例句如下:
皇家马德里足球俱乐部,简称皇马,是一家位于西班牙马德里的足球俱乐部,球队成立于1902年3月6日,前称马德里足球队。
遍历所有在Freebase中有候选实体对中的百科网页摘要,收集可能的名字表达模板,最后筛选出其中重复率最高的模板对网页的名字集进行补充。
特别的,对于类型是组织的网页,本发明实施例首先统计所有可能的组织名的后缀,如“足球俱乐部”、“公司”都可能是某网页名字的后缀,再将那么去掉组织名后缀的名字同样加入到名字集中,如“皇家马德里足球俱乐部”
去掉后缀“足球俱乐部”的“皇家马德里”仍然表达了同一概念。
在对百科的网页名字集进行补充之后,本发明对候选实体对,根据实体对中二者的名字重合数、信息框属性重合度、摘要中的词组重合度以及推断的类型重合度评估实体对中的二者表示同一概念的可能性,最后将其中可信度较高的实体对作为最后的映射。
sim(BE,FE)=0.5*#insection(name(BE),name(FE))
+1*#same_rel(BE,FE)
+1*description_sim(BE,FE)
+1*type_sim(BE,FE)
上面是计算候选实体对表示同一概念的可能性的公式,其中#insection(name(BE),name(FE))是网页和实体的名字的交集大小,#same_rel(BE,FE)是BE的信息框和Freebase中FE的关系的重合个数,description_sim(BE,FE)是两者的描述文本的词语相似度,值在[0,1]之间,type_sim(BE,FE)是两者的类型相似度,值在[0,1]之间,其中BE的类型是依据BE所在网页的信息推断而出的,具体见网页类型推断步骤如下:
网页类型信息是相当重要的语义信息,网页的类型可以让人们快速地了解网页,区别拥有相同名字的多个网页,同时网页类型信息也可以用于网页链接、问题回答等任务中。
对于那些在Freebase中找到映射的百科网页,直接使用其对应的Freebase中的实体类型作为网页类型,之后对于所有的百科网页,依据其百科自身提供的分类类别、信息框信息,章节标题信息推断网页类型,具体过程如下:
将已有映射的网页作为网页类型推断任务的标注数据,分别计算百科分类类别、信息框中的属性、信息框特定属性的属性值、章节标题、章节子标题与网页类型的联合概率分布。对于百科中的每一个网页,依据联合概率分布计算每一种网页类型的分值,最后选取其中较为可信的作为网页类型。具体公式如下:
其中entity是网页,prob(attr,type)就是某种参数attr和类型type的联合概率分布。
在建立候选实体对的阶段,可以将那些一对一且评估分数大于一定数值的候选实体对直接作为训练集进行类型推断。
S104,确认映射实体对中的所述网页属性值和所述预设知识图谱中的所述实体有关系的另一实体的名称是否相同或相似,如果是,将所述网页属性值链接到网页名称与所述网页属性值相同的外部网页,其中,所述网页还包含文本数据,步骤S104包括以下步骤:
提取映射实体对中所述网页与所述网页属性值之间的关系;
将所述网页属性值与预设知识图谱中的实体的名称进行匹配,如果所述网页属性值与所述预设知识图谱中的实体的名称相同或相似,则将所述网页属性值链接到网页名称与所述网页属性值相同或相似的外部网页,并建立所述网页与所述网页属性值的关系到所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系之间的映射,得到初始谓词映射表。
步骤S104之后,还包括根据所述预设知识图谱建立关系提取任务模型,通过自然语言处理分析文本数据中的句子,获取网页与所述句子中的内部实体的关系,将所述内部实体与预设知识图谱中的实体的名称进行匹配,如果所述内部实体与所述预设知识图谱中的实体的名称相同或相似,则将所述内部实体链接到网页名称与所述内部实体相同或相似的外部网页,并建立所述网页与所述内部实体的关系到所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系之间的映射,将所述映射加入初始谓词映射表,得到扩展谓词映射表,所述内部实体包括所述句子中与所述网页名称有关联的名词。
进一步的,所述扩展所述谓词映射表之后,还包括:
根据所述扩展后的谓词映射表以及所述网页和所述外部网页构建中文知识图谱。
所述根据所述扩展后的谓词映射表以及所述网页和所述外部网页构建中文知识图谱之后,所述方法还包括:
依据最小支撑树算法,筛选所述网页与外部网页之间的映射关系。
具体的,本发明实施例依据生成的谓词映射表从文本数据中抽取关系。对于每一个句子,识别其中的所有命名实体文本,并将其链接到具体百科网页中,然后根据若干规则从句法依存树中抽取实体之间的关系动词,并依据谓词映射表将其映射到知识图谱的关系上。并将实体视为节点,抽取的关系作为边,依据最小支撑树算法(Minimal spanningtree)选取最终抽取出的关系。
在本发明的一个具体的实施例中,步骤S104的实现过程如下:
所述信息框中的信息可以视为一组可信度较高的三元组(BE,predicate,Baike_obj),其中BE是当前的百科页面,Baike_obj可以是百科中的信息框中的网页属性值,predicate可以表示BE和Baike_obj之间的关系,具体可以为属性。若找到了BE所对应的Freebase实体FE,并且检测到在Freebase中FE的某个关系(FE,relation,Freebase_obj)中,其中,Freebase_obj为Freebase中的实体或者实体的属性值,relation为FE和Freebase_obj之间的关系,如果,Baike_obj和Freebase_obj的名字集中某个名字相似度较高,那么就可以认为两者表达了同一种关系,也即文本predicate可能表达了知识图谱中的relation关系,依据信息框映射到Freebase可以得到一个初始的谓词映射表,其中,predicate是表示文本上的关系,relation表示知识图谱上的关系,如文本中的predicate可以表达为“主演”,“出演”,‘参演’,而在知识图谱中这几种表达都可以被定义为一种关系,进一步的,因为文本是多义的,而一种关系也有多重表达方式,所以两者是多对多的关系。
但是,信息框中的谓词并不能覆盖文本数据中出现的所有谓词,为了提高谓词映射表的覆盖率,本发明实施例将Freebase作为远程知识库,生成关系抽取任务的标注数据集,所述标注数据集就是标注了一个句子能抽取出某种关系的一个数据集,用于作为训练模型,这里用来扩展谓词映射表,具体操作如下:
对于一对映射实体对(BE,FE),处理BE所对应的网页文本中每个句子S。对句子S进行自然语言处理,识别其中所有的命名实体文本,从而获取文本中标识网页的实体文本,并通过网页链接方法将实体文本映射到外部的百科网页,比如一个名称为“刘德华”的百科网页,在360百科网页上对应了3个实体文本“十面埋伏”“天下无贼”“墨攻”,这三个实体文本被分别链接到对应的外部网页,这三个文本对应的句子为“2004年,先与导演张艺谋合作武侠片《十面埋伏》,而后又与导演冯小刚合作《天下无贼》,在票房上获得不错的成绩。2006年,主演导演张之亮执导的中日韩合拍古装片《墨攻》”。然后基于句法分析树的结果,通过若干条设计的规则抽取BE和其它网页之间的关系动词,其中,自然语言处理只是将实体文本链接到了百科网页,提取除了演员“刘德华”和上述三个实体文本之间的关系动词。但是百科网页之间在待建立的知识图谱中的关系(演员->演出->电影)并没有抽取出来,需要进一步对实体文本和预设的(FE,relation,Freebase_obj)中的Freebase_obj做比对,来提取出predicate对应的relation,具体的对于每一个抽取出来的三元组(BE,predicate,Baike_obj),这一步中的Baike_obj代表着实体文本,若能在Freebase中找到关系(FE,relation,Freebase_obj)且Baike_obj在Freebase_obj的名字集中,那么就可以认为predicate表达了关系relation。本发明遍历处理了所有有实体映射的百科网页页面,并依据上述方法扩展了谓词映射表。
S105、根据所述预设知识图谱的实体和另一实体的关系和所述链接,建立所述网页和所述外部网页之间的映射关系;
上述步骤之后,所述方法还包括:
依据最小支撑树算法,筛选所述网页与网页之间的映射关系。
S106、将所述网页之间的映射关系和所述网页作为中文知识图谱数据项进行存储。
本发明实施例提供的中文知识图谱构建方法,通过将现有的预设知识图谱的实体和关系与网页和网页关系来做比较,借用预设知识图谱的结构构建以网页为实体的中文知识图谱,以此来实现自动化地构建中文知识图谱,节约了人力成本,减少了错误率,提高了知识图谱的更新速度。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图2示意性示出了本发明一个实施例所涉及的一种中文知识图谱构建系统的结构框图。参照图2,本发明实施例的中文知识图谱构建系统具体包括获取模块201、提取模块202、匹配模块203、判定模块204、关系模块205和存储模块206,其中:
获取模块201:用于获取一个或多个网页,所述网页包含网页名称、信息框;
提取模块202:用于从所述信息框中提取网页的网页属性和网页属性值;
匹配模块203:用于将所述网页与所述预设知识图谱中的实体进行匹配,判定所述网页与所述实体是否相同或相似,如果是,则建立所述网页与所述实体的映射实体对;
判定模块204:用于确认映射实体对中的所述网页的网页属性值和所述预设知识图谱中的所述实体具有关系的至少一个实体的名称是否相同或相似,如果是,将所述网页属性值链接到网页名称与所述网页属性值相同或相似的外部网页;
关系模块205:用于根据所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系和所述网页属性值与所述外部网页之间的链接,建立所述网页和所述外部网页之间的映射关系;
构建模块206:用于根据所述映射关系以及所述网页和所述外部网页构建中文知识图谱。
所述提取模块202包括预处理子模块和过滤子模块;
所述预处理子模块,用于获取信息框中网页的网页属性和所述网页属性对应的属性值;
所述过滤子模块,用于当所述对应属性值中包括分割标记时,根据所述分隔标记,将对应属性值分隔为多个网页属性值,所述网页属性值的结构是预设的;
所述匹配模块203包括比对子模块、扩展子模块和映射子模块:
所述比对子模块,用于将所述网页名称与预设知识图谱中的实体名称进行匹配,如果匹配结果相同或相似,则建立至少一个包括所述网页与预设知识图谱中的实体的候选实体对;
所述扩展子模块,用于将所述网页属性值和预设知识图谱中实体名称进行匹配,如果匹配结果相同,则获取所述网页属性值所对应的所述属性,并根据所述对应属性对应的所有网页属性值扩展所述网页名称;
所述映射子模块,用于计算扩展后的所述网页名称和预设知识图谱中的网页名称的交集的重合度,并保留所述重合度最大的所述候选实体对作为映射实体对。
所述映射子模块,还用于计算所述候选实体对中的所述网页的类型和所述预设实体集中的所述实体的类型的相似度,将所述重合度和所述相似度相加的值最大的实体对作为映射实体对。
所述映射子模块,还用于将已经建立所述网页的类型与预设知识图谱中的实体类型映射的所述网页作为训练数据集;将已有映射的网页作为推断网页类型的训练数据,建立网页类型、信息框中的网页属性、信息框中网页属性值、所述文本数据的章节标题和所述文本数据的章节子标题的联合概率分布模型;对于每一个网页,依据所述联合概率分布计算所述网页类型的分布值,最后选取概率分布结果最高的值中的网页类型作为最终的网页类型。
所述判定模块204包括:生成子模块、谓词映射子模块和内部实体子模块,所述生成子模块,用于提取映射实体对中所述网页与所述网页属性值之间的关系;
所述谓词映射子模块,用于将所述网页属性值与预设知识图谱中的实体的名称进行匹配,如果所述网页属性值与所述预设知识图谱中的实体的名称相同或相似,则将所述网页属性值链接到网页名称与所述网页属性值相同或相似的外部网页,并建立所述网页与所述网页属性值的关系到所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系之间的映射,得到初始谓词映射表;
所述内部实体子模块,用于根据所述预设知识图谱建立关系提取任务模型,通过自然语言处理分析文本数据中的句子,获取网页与所述句子中的内部实体的关系,将所述内部实体与预设知识图谱中的实体的名称进行匹配,如果所述内部实体与所述预设知识图谱中的实体的名称相同或相似,则将所述内部实体链接到网页名称与所述内部实体相同或相似的外部网页,并建立所述网页与所述内部实体的关系到所述预设知识图谱中的实体和具有关系的所述至少一个实体之间的关系之间的映射,将所述映射加入初始谓词映射表,得到扩展谓词映射表,所述内部实体包括所述句子中与所述网页名称有关联的名词。
构建模块206,还用于依据最小支撑树算法,筛选所述网页与网页之间的映射关系。
本发明实施例提供的中文知识图谱构建系统,通过借助于现有的英文通用知识图谱来构建知识图谱框架,同时借助于现有英文通用知识图谱来进行实体的类型推断、实体的名字信息补全等任务,以此来实现自动化地构建中文知识图谱,节约了人力成本,减少了错误率,提高了知识图谱的更新速度和准确性。
本发明实施例还涉及一种中文知识图谱构建装置,所述装置包括上述的一种中文知识图谱构建系统。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的中文知识图谱装置,通过借助于现有的英文通用知识图谱来构建知识图谱框架,同时借助于现有英文通用知识图谱来进行实体的类型推断、实体的名字信息补全等任务,以此来实现自动化地构建中文知识图谱,节约了人力成本,减少了错误率,提高了知识图谱的更新速度和准确性。
在此提供的仿真方法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。