一种用于知识服务的信息处理方法及系统
技术领域
本发明涉及一种用于知识服务的信息处理方法及系统,属于电数字数据处理技术。
背景技术
知识的组织单位长期停留在文献这一层次上,这成为制约知识被有效利用的瓶颈。数字出版已成为出版业的发展趋势,人们从纸质阅读大量地转向电子阅读。电子图书、期刊、数字报刊等多样化的出版形态承载着海量的文本数字资源。然而,数字出版资源目前主要采用书籍或期刊等文档的形式组织和传播知识和信息。但随着知识经济时代的到来,人们希望获取的并非文档本身,而是直接获得文档里面的知识。因此,知识服务应运而生。所谓知识服务是指从各种显性和隐性知识资源中按照用户需求抽取相关知识,并用来解决用户问题的高级阶段的信息服务过程。这种服务其特点就在于,它是一种面向知识内容和解决方案的服务。
知识抽取是当前自然语言处理、语义Web、机器学习、知识工程、知识发现、知识管理、文本挖掘等相关领域共同关注的重点研究之一,是一个新的研究热点,主要是指从文档信息中抽取知识,通过对文档进行内容分析和处理,将文档中蕴含的知识逐条抽取出来。知识抽取是知识获取的一种方式,也是信息抽取的升华与深化。目前,以数字出版资源形式存在的知识资源已经非常丰富,但是以句段为组织单位的知识资源还很匮乏。句群是在意义和结构上有密切联系的前后连贯的句子组成的言语交际单位,是知识的一种有效表达方式。句群抽取自书籍的篇章信息(篇章是传统的知识组织方式),通过基于句群的知识抽取,可将文献处理的颗粒度从篇章层次细分到句段层次,从而彻底改变传统的知识组织和管理方式,为用户提供更好的知识服务。
同领域的知识点之间存在着关联,通过同一文本中知识点及其解释可以直接发现的关系,我们称之为“显性关系”,通过不同文本中知识点及其解释间接发现的关系,我们称之为“隐性关系”。领域百科全书作为一种数字出版资源,是对领域知识点概要信息的简单总结。领域百科全书中的知识点(也称为词条)描述了知识点名称和知识点解释,解释文本中通常会提及部分其他相关知识点。例如,在《中国大百科全书——中国历史》中,对于知识点“秦始皇”的解释为“中国统一秦王朝的开国皇帝...免除吕不韦的相职,令其徙处蜀郡...始皇三十四年,又采纳丞相李斯的建议...”(省略了部分内容,已经使用...注明)。从解释中可以看到,知识点“秦始皇”与知识点“吕不韦”有关联关系。同理,知识点“秦始皇”与知识点“李斯”也有关联关系,这些关系是存在于知识点及其解释之间的显性关系。但是,在两个知识点之间,除了显性关系,还可能存在多个间接地隐性关系,并且隐性关系可能比显性关系更具代表性。因此基于知识点的显性关系,需要进一步挖掘知识点间的隐性关系,综合考虑知识点的显性关系和隐性关系,才能对知识点关系强度做出更好的度量,为用户提供更为全面的知识服务。
因此,实现知识的组织单位由文档深化到知识点,从而获取存在于大量文档中的知识点及相关知识点间的联系,将产生极大的知识增值。以知识点形式组织的知识,能系统有效地展示一个学科或专业领域的知识概貌和内部联系。但现有技术中,仅是将用户输入的关键词作为知识点来提取出包含该关键词的句段、图片、电子书等知识,为用户提供相关的知识服务,而忽略了知识点包含的语义信息和知识点间的关联性,无法真正实现以知识点的方式组织领域内的知识。
发明内容
为此,本发明所要解决的技术问题在于现有技术中,缺少一种有效的信息处理方法,能够以知识点的方式组织领域内的知识,从而提供一种真正能够以知识点的方式组织领域内的知识的用于知识服务的信息处理方法及系统。
为解决上述技术问题,本发明的技术方案如下:
本发明提供了一种用于知识服务的信息处理方法,包括如下步骤:
获取所有或部分知识点,作为知识点集合;
对于所述知识点集合中的每个知识点,确定所述知识点的语义信息;
根据所述语义信息,确定所述知识点对应的句群集合;
根据所述句群集合,确定所述知识点对应的篇章信息;
根据所述篇章信息,确定所述知识点对应的数字资源。
本发明所述的用于知识服务的信息处理方法,所述确定所述知识点的语义信息的过程,包括:
采用关键词扩展方法,将知识点名称作为初始关键词进行扩展,得到知识点对应的扩展关键词ar及扩展关键词出现的次数vr;
获取知识点的属性集Ar={(a1,u1),(a2,u2),…,(ak,uk)}作为所述知识点的语义信息,其中ar为知识点的属性参数,ur为所述属性参数对应的权重,其中ur根据扩展关键词出现的次数vr得到,r=1,2,…,k,k为属性数目。
本发明所述的用于知识服务的信息处理方法,所述关键词扩展的处理包括:
将知识点名称作为初始关键词,根据预先给定的初始关键词进行检索,检索获得关键词;
将检索获得的关键词作为下一次检索的基础,通过关键词迭代的方式进行循环检索;
当一次检索得到的关键词与前一次检索得到的关键词误差在预设误差阈值内时,检索结束,将本次检索得到的关键词确定为扩展关键词ar,并记录扩展关键词出现的次数vr。
本发明所述的用于知识服务的信息处理方法,根据所述语义信息,确定所述知识点对应的句群信息的过程,包括:
从电子书全文索引库获取初始句群,且初始句群中包括一个以上句子;
将初始句群长度与期望长度进行比较,根据比较结果确定需要进行扩展的初始句群;
将对需要进行扩展的初始句群扩展后得到的最终句群输出,完成知识抽取,得到与所述知识点的属性集对应的句群集合;
将所述句群集合与对应的知识点相关联。
本发明所述的用于知识服务的信息处理方法,根据所述句群集合,确定所述知识点对应的篇章信息的过程,包括:
根据所述句群集合,查询到其在电子书全文索引库中对应的篇章信息作为所述知识点对应的篇章信息;
根据所述篇章信息,确定所述知识点对应的数字资源包括如下步骤:
根据所述篇章信息,查询到其在电子书全文索引库中对应的数字资源作为所述知识点对应的数字资源;
将所述数字资源与对应的知识点相关联。
本发明所述的用于知识服务的信息处理方法,所述获取所有或部分知识点作为知识点集合之后,所述方法还包括:为知识点关联图片。
本发明所述的用于知识服务的信息处理方法,所述为知识点关联图片的过程包括:
在图片库中搜索图片标题与知识点名称相对应的图片集合,将所述图片集合与知识点相关联。
本发明所述的用于知识服务的信息处理方法,所述获取所有或部分知识点作为知识点集合之后,所述方法还包括:
构架以某一知识点为中心的知识信息网。
本发明所述的用于知识服务的信息处理方法,所述构架以某一知识点为中心的知识信息网的过程,包括:
从所述知识点集合选取一个知识点作为第一目标知识点,确定所述第一目标知识点与每个第二目标知识点的关系强度,其中,第二目标知识点为所有知识点集合中除所述第一目标知识点之外的所有知识点;
根据确定的每个关系强度,确定与所述第一目标知识点相关的第二目标知识点;
将所述第一目标知识点与所有相关的第二目标知识点相关联,构架以选取的所述知识点为中心的知识信息网。
本发明所述的用于知识服务的信息处理方法,确定所述第一目标知识点与每个第二目标知识点的关系强度的过程,包括:
计算第一目标知识点与所有第二目标知识点的显性关系强度;
计算第一目标知识点与所有第二目标知识点的隐性关系强度;
根据所述显性关系强度和隐性关系强度确定第一目标知识点与所有第二目标知识点的关系强度。
本发明还提供了一种用于知识服务的信息处理系统,包括:
知识点获取装置,用于获取所有或部分知识点,作为知识点集合;
语义确定装置,与所述知识点获取装置相连,用于对所述知识点集合中的每个知识点,确定所述知识点的语义信息;
句群确定装置,与所述语义确定装置相连,用于根据所述语义信息,确定所述知识点对应的句群集合;
篇章确定装置,与所述句群确定装置相连,用于根据所述句群集合,确定所述知识点对应的篇章信息;
数字资源确定装置,与所述篇章确定装置相连,用于根据所述篇章信息,确定所述知识点对应的数字资源。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的用于知识服务的信息处理方法及系统,获取所有或部分知识点作为知识点集合,并对知识点集合中的每个知识点,确定其语义信息,之后根据语义信息,确定知识点对应的句群集合,根据句群集合,确定对应的篇章信息,根据篇章信息,确定对应的数字资源,综合考虑了知识点的语义信息,而不是简单的通过用户输入的关键词的名称关联出相应的知识,更加贴合用户的真实需求,能够根据知识点包含的语义信息关联出与用户需求最为贴合的相应的知识,真正实现了以知识点的方式组织领域内的知识,提升了用户的体验。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明一个实施例所述用于知识服务的信息处理方法的流程图;
图2是本发明一个实施例所述用于知识服务的信息处理方法的流程图;
图3是本发明一个实施例所述关键词扩展方法的流程图;
图4是本发明一个实施例所述采用知识抽取方法对电子书全文索引库进行句群抽取方法的流程图;
图5是本发明一个实施例所述具体案例中有关《中国大百科全书.中国历史》中包含的部分知识点的示意图;
图6是本发明一个实施例所述具体案例中有关知识点属性集中部分属性及其对应的权重的示意图;
图7是本发明一个实施例所述以某一知识点为中心,组织该知识点所属领域内的知识后呈现的版面示意图;
图8是本发明一个实施例所述具体案例中某一知识点与其它知识点的部分关系强度信息示意图;
图9是本发明一个实施例所述具体案例中带权有向图S的示意图;
图10是本发明一个实施例所述知识信息网的示意图;
图11是本发明一个实施例所述用于知识服务的信息处理系统的结构框图;
图12是本发明一个实施例所述用于知识服务的信息处理系统的结构框图。
图中附图标记表示为:1-知识点获取装置,2-语义确定装置,3-句群确定装置,4-篇章确定装置,5-数字资源确定装置,6-图片关联装置,7-构架装置,21-扩展单元,22-语义获取单元,31-第一获取单元,32-比较单元,33-抽取单元,34-第一关联单元,41-第一查询单元,51-第二查询单元,52-第二关联单元,61-搜索单元,71-关系强度确定单元,72-相关性确定单元,73-构架单元,211-检索器,212-循环器,213-判定器,711-第一计算器,712-第二计算器,713-关系强度计算器。
具体实施方式
实施例1
本实施例提供了一种用于知识服务的信息处理方法,如图1、图2所示,包括如下步骤:
获取所有或部分知识点,作为知识点集合。
对于所述知识点集合中的每个知识点,确定所述知识点的语义信息。
根据所述语义信息,确定所述知识点对应的句群集合。
根据所述句群集合,确定所述知识点对应的篇章信息。
根据所述篇章信息,确定所述知识点对应的数字资源。
本实施例所述的用于知识服务的信息处理方法,可以从领域百科全书中抽取知识点,在背景技术中已经提及领域百科全书作为一种数字出版资源,是对领域知识点概要信息的简单总结。领域百科全书中的知识点(也称为词条)描述了知识点名称和知识点解释,因此,通过领域百科全书获取的知识点,其包括知识点名称和知识点解释。以历史领域为例,可以选择《中国大百科全书.中国历史》(共3册)作为该领域的领域百科全书,这3册《中国大百科全书.中国历史》即可囊括历史领域(中国历史)的重要知识点,确保了获取知识点的全面性和准确性。具体应用中,可以从一个领域获得知识点,也可以从多个领域获得知识点,都可以根据需求自行选择,比如提供知识服务的平台是一个专用于历史领域的知识服务平台,则仅需从历史领域获得知识点即可,之后以某一知识点为中心,组织该知识点相关联的知识。而如果提供知识服务的平台是一个跨领域的综合性知识服务平台,则可以从多个领域比如历史、文学、科技等领域获得知识点,之后以某一知识点为中心,组织该知识点所属领域(一个知识点有可能涉及多个领域,如知识点秦始皇就涉及历史、文学、社会等多个领域)内的知识。
本实施例所述的用于知识服务的信息处理方法,综合考虑了知识点的语义信息,而不是简单的通过用户输入的关键词的名称关联出相应的知识,更加贴合用户的真实需求,能够根据知识点包含的语义信息关联出与用户需求最为贴合的相应的知识,真正实现了以知识点的方式组织领域内的知识,提升了用户的体验。
实施例2
在实施例1所述实施例的基础上,所述确定所述知识点的语义信息的过程,包括:
采用关键词扩展方法,将知识点名称作为初始关键词进行扩展,得到知识点对应的扩展关键词ar及扩展关键词出现的次数vr。
获取知识点的属性集Ar={(a1,u1),(a2,u2),…,(ak,uk)}作为所述知识点的语义信息,其中ar为知识点的属性参数,ur为所述属性参数对应的权重,其中ur根据扩展关键词出现的次数vr得到,r=1,2,…,k,k为属性数目。
本实施例中,ur根据扩展关键词出现的次数vr得到,其可以将扩展关键词出现的次数vr直接作为属性参数ar对应的权重ur,也可以将扩展关键词出现的次数vr经归一化处理后得到的数值作为属性参数ar对应的权重ur。
作为一种可选的方式,如图3所示,所述关键词扩展的处理包括:
将知识点名称作为初始关键词,根据预先给定的初始关键词进行检索,检索获得关键词。
将检索获得的关键词作为下一次检索的基础,通过关键词迭代的方式进行循环检索。
当一次检索得到的关键词与前一次检索得到的关键词误差在预设误差阈值内时,检索结束,将本次检索得到的关键词确定为扩展关键词ar,并记录扩展关键词出现的次数vr。
其中所述一次检索得到的关键词与前一次检索得到的关键词误差为一次检索得到的关键词与前一次检索得到的关键词存在差别的关键词的个数占本次检索得到的关键词的个数的比值。在具体应用中,对于一次检索得到的关键词与前一次检索得到的关键词,分别取前n个关键词来进行该误差统计,优选的,5≤n≤10,所述预设误差阈值小于20%,因此只有所述比值小于20%,才能将该次检索得到的关键词确定为扩展关键词ar,并记录扩展关键词出现的次数vr。
在具体应用中,所述检索得到关键词的过程可以为:根据初始关键词,也即知识点名称,分别统计对知识点名称进行检索获得的词语出现的次数,将次数大于预设阈值的词语作为检索获得的关键词。其中所述检索获得的词语的方法为使用知识点名称在文档库中进行检索,得到相关度高的文档,然后对这些文档进行分词,将分词后的结果作为检索获得的词语。作为一种改进,在分词后,还可以进行去停用词操作,然后获取与所述知识点名称同时出现的同现词,将所述同现词作为检索获得的词语。作为另一种可选的实施方式,所述检索得到关键词的过程也可以统计对知识点名称进行检索获得的词语的个数以及各个词语出现的次数,按照次数的多少降序排列,将排列在前的一定比例的词语作为检索获得的关键词。
本实施例所述的用于知识服务的信息处理方法,采用关键词扩展方法,将知识点名称作为初始关键词进行扩展,可以获得初始关键词,也即知识点名称的多种表达方式以及多方面含义的词义,将知识点名称进行了合理有效的扩展,同时进行分词、去停用词、获取同现词的方式获得检索后的词语来进行初始关键词的扩展,将不需要的多余的词语去除,得到有效的词语,既提高了知识抽取的效率,也提高了扩展关键词的准确度。
作为一种可选的方式,根据所述语义信息,确定所述知识点对应的句群信息的过程,包括:
从电子书全文索引库获取初始句群,且初始句群中包括一个以上句子。
将初始句群长度与期望长度进行比较,根据比较结果确定需要进行扩展的初始句群。
将对需要进行扩展的初始句群扩展后得到的最终句群输出,完成知识抽取,得到与所述知识点的属性集对应的句群集合。
将所述句群集合与对应的知识点相关联。
具体应用中,所述电子书全文索引库囊括了所有电子书的篇章文档,可以对电子书全文索引库中的所述文档进行分句,取所有前后连贯的Z个句子形成初始句群,其中Z为大于1的整数,比如取Z=3,可以确保获取的初始句群至少包括三个句子。然后就可以在所述初始句群的基础上向左和/或向右进行扩展,因为初始句群本身就已具备很好的逻辑关系,在初始句群的基础上进行扩展得到的最终句群也会具有很好的逻辑性,不会使人感到突兀。
以对初始句群向左扩展为例,如图4所示,包括如下步骤:
确定知识点的属性集Ar={(a1,u1),(a2,u2),…,(ak,uk)},所述属性集包括K个属性参数ar,所述属性参数即为扩展关键词ar,ur为所述属性参数对应的权重,K为正整数,r为正整数且r小于等于K。
确定初始句群长度与期望长度的比较结果:F=期望长度/(初始句群长度+冗余值),在F大于或等于1时,权重阈值=(H/F)/G;在F小于1时,权重阈值=(H/F)*G。其中,H=∑ur/K为属性权重密度,属性权重密度H还可以由用户根据实际需求确定,G为阈值调整因子,为大于1的数,优选的5≤G≤30。因此,初始句群长度与期望长度的比较结果F越小,即初始句群长度越接近或者超过期望长度,所述权重阈值越大,即所述权重阈值能够根据初始句群长度与期望长度的比较结果进行动态调整,以保证抽取的知识信息更趋近于期望长度。其中期望长度为本领域技术人员所熟知的,例如在专利文献中说明书摘要的长度要求不超过300字,如果要从某一文档中抽取出相关的句子形成说明书摘要,则期望长度即为300字,如果对期望长度没有特殊要求,也可以根据实际应用来选定。初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半;初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
在扩展过程中,首先选取一个初始句群进行扩展,冗余值选取为与初始句群相邻的左侧句子长度的一半,然后将与初始句群相邻的左侧句子中包含的所有属性参数ar所对应的权重ur加和得到与初始句群相邻的左侧句子的权重WL,然后将WL与所述权重阈值相比较,只有在WL大于所述权重阈值且初始句群向左扩展句子的数量小于L的情况下,才会将该左侧句子扩展至初始句群后形成新句群,之后将新句群作为初始句群对其继续扩展,直至WL小于所述权重阈值或初始句群向左扩展句子的数量大于L时停止扩展,其中L为初始句群向左扩展句子数量阈值。初始句群向右扩展的方式与此原理相同,此不赘述。
对每一初始句群按照上述方式进行扩展,得到所有的最终句群,获得最终句群后还可以包括如下步骤:获取最终句群权重,根据最终句群中包含的属性参数ar及对应的权重ur得到最终句群权重;最终句群权重为最终句群中每一句子所包含的所有属性参数ar所对应的权重ur的加和。之后根据所述最终句群权重,得到最终句群权重密度K’=最终句群权重/最终句群长度。计算最终句群权重密度K’时,还可以选择采用最终句群权重除以最终句群中的句子数的方式,只要保证对于每一个最终句群在计算权重密度K’时均采用相同的标准即可。为了避免输出重复的句群降低效率,还可以将所述最终句群进行去重操作后再输出。为了确保获取的最终句群的长度都符合要求,还可以设置最终句群的最小长度,将所述最终句群中,长度小于所述最小长度的最终句群去除。为了便于用户查阅,还可以根据每一所述最终句群的权重密度K’的大小对最终句群进行排序后输出。因为所述属性集是知识点对应的属性集,因此所获取的最终句群也是同知识点相对应的最终句群,通过该知识抽取方法对电子书全文索引库进行句群抽取,即可获取到与知识点的属性集对应的句群集合。
综上所述,本实施例所述的用于知识服务的信息处理方法,用户在输入知识点信息后,即可获取与知识点相关联的句群集合,且所述句群集合会按照权重的大小排序依次展示,可以使用户获取到与知识点最相关的通过连贯的句群呈现的相关知识,提升了用户的体验。
作为一种可选的方式,根据所述句群集合,确定所述知识点对应的篇章信息的过程,包括:
根据所述句群集合,查询到其在电子书全文索引库中对应的篇章信息作为所述知识点对应的篇章信息。
根据所述篇章信息,确定所述知识点对应的数字资源包括如下步骤:
根据所述篇章信息,查询到其在电子书全文索引库中对应的数字资源作为所述知识点对应的数字资源。
将所述数字资源与对应的知识点相关联。
具体应用中,因为句群是从电子书全文索引库的篇章中抽取的,因此,获取了句群集合,就可以查询到其抽取自电子书全文索引库中的哪些篇章,而篇章又包含于电子书全文索引库中的数字资源(比如电子书)中,因此,获取了篇章信息,就可以查询到所述篇章选取自哪些数字资源,也即句群、篇章以及数字资源间是存在对应关系的,因此,当获取到句群集合时,也可以查询到其在电子书全文索引库中对应的数字资源,比如电子书,可以将用户要获取的知识点所对应的句群集合和数字资源根据用户的需要都通过同一版面呈现出来,用户看了句群的介绍,如果还想进一步了解相关知识,可以点击与句群相关的数字资源(电子书),获取更多的相关信息,大大提升了用户的体验度。
实施例3
在实施例1或实施例2所述实施例的基础上,如图2所示,所述获取所有或部分知识点作为知识点集合之后,所述方法还包括:为知识点关联图片。
作为一种可选的方式,所述为知识点关联图片的过程包括:
在图片库中搜索图片标题与知识点名称相对应的图片集合,将所述图片集合与知识点相关联。(如果有其它可以实现的方式,也可以提供)
具体应用中,因为在图片库中的图片是通过图片标题来标记的,而图片标题与知识点名称间存在对应的关系,因此,如果要在图片库中检索与知识点相对应的图片集合,可以在图片库中通过检索与知识点名称相对应的图片标题,来获取到与知识点相对应的图片集合,为知识点关联相应的图片集合奠定了基础。
本实施例所述的用于知识服务的信息处理方法,用户在输入知识点信息后,就可以获取到与知识点相关联的图片集合,可以使用户更加形象直观的了解知识点中蕴含的相关知识。
实际应用中,可以根据用户需求,比如用户需要了解与该知识点相关联的图片、电子书、句群(摘要信息)等相关信息,即可为知识点关联相应的图片、电子书、句群。用户在输入知识点信息比如知识点名称后,即可调取出与该知识点相关联的图片、电子书、句群以及以该知识点为中心的知识信息网,将其通过同一个版面呈现出来,点击相应的知识服务标引,即可获取到相应的知识服务。因此,本实施例提供了一种有效的用于知识服务的信息处理方法来实现以知识点的方式组织领域内的知识,提升了用户的体验,使用户无需通篇阅读文档,即可直接获取文档里的知识。
实施例4
在实施例1-实施例3任一所述实施例的基础上,如图1、图2所示,所述获取所有或部分知识点作为知识点集合之后,所述方法还包括:
构架以某一知识点为中心的知识信息网。
作为一种可选的方式,所述构架以某一知识点为中心的知识信息网的过程,包括:
从所述知识点集合选取一个知识点作为第一目标知识点,确定所述第一目标知识点与每个第二目标知识点的关系强度,其中,第二目标知识点为所有知识点集合中除所述第一目标知识点之外的所有知识点。
根据确定的每个关系强度,确定与所述第一目标知识点相关的第二目标知识点。
将所述第一目标知识点与所有相关的第二目标知识点相关联,构架以选取的所述知识点为中心的知识信息网。
具体应用中,确定与所述第一目标知识点相关的第二目标知识点时,可以采用预设阈值的方式,将关系强度大于该阈值的第二目标知识点作为相关的目标知识点,也可以采用将关系强度降序排列,选取排列在前的部分第二目标知识点作为相关的目标知识点,选择的方式和个数根据需要灵活设置。
以三个知识点战国、秦始皇、秦朝为例,秦始皇作为第一目标知识点,秦朝和战国即为知识点秦始皇的第二目标知识点。知识点名称及知识点的相关文本见表2,为了便于描述,上述三个知识点名称分别记为A、B和C。相关文本是领域百科全书内对知识点解释的相关段落。
表2.知识点名及知识点的相关文本
确定所述第一目标知识点与每个第二目标知识点的关系强度的过程,包括:
S1:计算第一目标知识点与所有第二目标知识点的显性关系强度,其具体包括如下步骤:
S11:计算知识点正向显性关系强度,所述知识点正向显性关系强度的计算方法为:
其中,fp(i,j)为从知识点oi到知识点oj的正向显性关系强度,μ为知识点oj在知识点oi的相关文本中出现的次数,β为控制因子,0.5≤β≤2,i、j为非负整数,i,j=1,2,…n,n为知识点的个数。
在本实施例中,所述控制因子β设置为1,在其它实施例中,所述控制因子β可设置为0.5、0.7、1.2、1.5等不同的值,所述控制因子β控制所述μ的大小对显性关系强度的变化,用户根据领域知识点的特性选择所述控制因子β的大小,并根据领域知识点的特性进行所述控制因子β寻优。
S12:计算知识点反向显性关系强度,所述知识点反向显性关系强度的计算方法为:
其中,fN(i,j)为从知识点oi到知识点oj的反向显性关系强度,α为关联因子,1≤α≤5,α为正整数,fP(j,i)是从知识点oj到知识点oi的正向显性关系强度。
在本实施例中,所述关联因子α设置为2,在其它实施例中,所述关联因子α可以设置为1、1.5、3、4、5等不同的值。所述关联因子α控制所述正向显性关系对所述反向显性关系的影响,α的值越小,正向关系对反向关系的影响越大,α的值越大,正向关系对反向关系的影响越小。
S13:根据知识点所述正向显性关系强度和所述反向显性关系强度计算知识点显性关系强度,知识点显性关系强度的计算方法为:
其中,fE(i,j)为从知识点oi到知识点oj的显性关系强度,fp(i,j)为从知识点oi到知识点oj的正向显性关系强度,fN(i,j)为从知识点oi到知识点oj的反向显性关系强度,α为关联因子,1≤α≤5,α为正整数。
如果知识点oi到知识点oj没有显性关系,则Eij等于零。在本实施例中,知识点到自身的显性关系强度设置为0。在其它实施例中,知识点到自身的显性关系强度可设置为1,但不具有实际的意义。
根据步骤S11至步骤S13依次计算知识点A、知识点B与知识点C之间的显性关系强度。
本实施例所述的知识点关系强度的度量方法,所述知识点显性关系强度是通过计算正向显性关系强度和反向显性关系强度获得,双向的关系强度评估方法更进一步的提高了显性关系强度的准确性。
S14:根据所有知识点的显性关系强度,生成所述知识点关系强度矩阵M。
根据表2中的知识点A、B、C与相关文本之间的关系计算得到的三个知识点间的显性关系强度生成知识点关系强度矩阵M(目前保存显性关系强度),如表3所示:
表3.关系强度矩阵M(保存显性关系强度)
|
A |
B |
C |
A |
0 |
0.6294206315319455 |
0.3327259658703996 |
B |
0.7967241058038812 |
0 |
0.9367655024299096 |
C |
0.6654519317407992 |
0.968382751214953 |
0 |
S2:计算第一目标知识点与所有第二目标知识点的隐性关系强度,具体包括如下步骤:
S21:根据所有知识点所述关系强度矩阵构造带权有向图S。
所述带权有向图S包括边、权重和顶点。
其中,边和权重的设置方法为:
当Mij>0时,S中从知识点oi到知识点oj的边的权重设置为-ln(Mij);当Mij=0时,S中不存在从知识点oi到知识点oj的边,其中,Mij表示知识点oi到知识点oj的显性关系强度。
所述带权有向图S的顶点与M的顶点相同。本实施例通过将显性关系矩阵转化为带权有向图,便于知识点间最短路径的计算,也便于算法的实现,提高了运算效率。本实施例中所述带权有向图S用矩阵表示。则根据表3所示的知识点关系强度矩阵构造的带权有向图S如表4所示:
表4.带权有向图S
|
A |
B |
C |
A |
null |
0.46295551520692213 |
1.1004360531047228 |
B |
0.2272468259883068 |
null |
0.06532229228070761 |
C |
0.40728887254477764 |
0.032127865709501026 |
null |
表4中null表示不存在边。
作为其它可以替换的实施方式,所述带权有向图S还可以用图9来表示,如图9所示,知识点间的显性关系可以形象的表示为所示带权有向图S的边,知识点即为带权有向图S的顶点。
S22:根据所述带权有向图计算知识点隐性关系强度,并生成知识点隐性关系强度矩阵I。
所述知识点隐性关系强度的计算方法为:
fI(i,j)=exp(-Cij)
其中,fI(i,j)表示知识点oi到知识点oj的隐性关系,Cij表示在所述带权有向图S中知识点oi到知识点oj的最短简单路径长度;如果知识点oi到知识点oj不存在简单路径,则fI(i,j)等于零;知识点到自身的隐性关系强度设置为零;将隐性关系强度fI(i,j)保存为矩阵形式,则生成了知识点隐性关系强度矩阵I。
所述最短简单路径长度Cij计算方法为Dijkstra算法。运算速率快,实现了快速搜索,提高了响应速度。
本实施例所述的知识点关系强度的度量方法,所述显性关系强度和隐性关系强度的计算方法分别通过指数函数和对数函数获得,利用指数函数和对数函数特性以及二者之间的关系建立数学模型,构思巧妙,算法简单,易于实现。
则根据表4所示带权有向图S计算得到的知识点A、B、C之间的隐性关系强度生成知识点隐性关系强度矩阵I,如表5所示:
表5.隐性关系强度矩阵
|
A |
B |
C |
A |
0 |
0.3174698501409984 |
0.1982632024491203 |
B |
0.7967241058038812 |
0 |
0.9367655024299096 |
C |
0.3857669407688179 |
0.968382751214953 |
0 |
S3:根据所述显性关系强度和隐性关系强度确定第一目标知识点与所有第二目标知识点间的关系强度,具体包括如下步骤:
S31:遍历所述隐性关系强度矩阵I中的每一项。
S32:判断Iij与Mij的大小。
S33:如果Iij>Mij,对Mij重新赋值,Mij=Iij,更新所述知识点关系强度矩阵M,返回步骤S31;如果Iij≤Mij,返回步骤S31,直到遍历完所述隐性关系强度矩阵I中的每一项。
则表3中的知识点A、B、C之间的关系强度更新后如表6所示:
表6.关系强度矩阵M
|
A |
B |
C |
A |
0 |
0.6294206315319455 |
0.3327259658703996 |
B |
0.7967241058038812 |
0 |
0.9367655024299096 |
C |
0.6654519317407992 |
0.968382751214953 |
0 |
由表6可以看出,其中表3中的多个值被隐性关系强度更新,所有的关系强度值都在{0,1}区间。
由表6(也即更新后的所述知识点关系强度矩阵M)就可以获取从知识点B(秦始皇)到知识点A(战国)的关系强度信息为0.7967241058038812,从知识点B(秦始皇)到知识点C(秦朝)的关系强度信息为0.9367655024299096,同理,知识点B(秦始皇)到其它知识点的关系强度信息也可以通过上述知识点关系强度的度量方法来获取。之后就可以按照所述关系强度信息来构架以知识点B(秦始皇)为中心的知识信息网了。
由表6可以看到,从知识点B到知识点C的关系强度信息为0.9367655024299096,而从知识点C到知识点B的关系强度信息却为0.968382751214953,因此,方向不同,即使是同样的两个知识点,关系强度信息也是不同的,相较于现有技术中,两个知识点间双方向的关系强度信息都是一样的而言,本实施例所述的用于知识服务的信息处理方法,方向性不同,两个知识点间的关系强度信息是不同的,更符合实际情况。以知识点A和知识点B为例,若以知识点A为中心,指的是同知识点A与其它知识点的关系强度相比,知识点A到知识点B的关系强度更强还是更弱,若关系强度更强,则从知识点A到知识点B的关系强度信息的数值更高,反之则更低;而若以知识点B为中心,指的是同知识点B与其它知识点的关系强度相比,知识点B到知识点A的关系强度更强还是更弱,若关系强度更强,则从知识点B到知识点A的关系强度信息的数值更高,反之则更低。显然,方向性不同,也即选用做中心的知识点不同,关系强度信息是不同的,因此本实施例所述的用于知识服务的信息处理方法获取的关系强度信息更为准确。
本实施例所述的用于知识服务的信息处理方法,通过计算第一目标知识点与第二目标知识点间的关系强度,进而获取从该知识点到其它知识点的关系强度信息,从而可以将所述第一目标知识点与所有相关的第二目标知识点相关联,构架以选取的所述知识点为中心的知识信息网。因为一个知识点跟其它知识点往往有千丝万缕的显性关系和隐性关系,通过知识点关系强度度量方法能够准确度量知识点间的关系强度,提供从该知识点到其它知识点的准确的关系强度信息,为准确建立以该知识点为中心的知识信息网提供了有力的保障。用户通过输入该知识点信息,除了能调取出与该知识点相关联的电子书、句群等知识,还能调取出以该知识点为中心的知识信息网,增大了用户的知识获取量,提升了用户的体验。
实施例5
本实施例提供了一个用于知识服务的信息处理方法的具体的实施案例,如下所述:
以历史领域为例,选择《中国大百科全书.中国历史》共3册,这3册百科全书包含了历史领域的重要知识点。
抽取知识点:从领域百科全书中抽取领域知识点,知识点的信息包含知识点名称和知识点解释,如图5所示,部分知识点的信息如下。第一列为知识点名称,第二列为知识点的部分解释。以下将以知识点“秦始皇”为例进行说明。
计算知识点的属性集:将知识点的名称“秦始皇”做为初始关键字,采用关键词扩展方法对其进行扩展,得到知识点“秦始皇”对应的扩展关键词及其出现次数,将此扩展关键词作为知识点的属性参数ar,将ar在扩展关键词过程中出现的次数经归一化处理后得到的数值作为其对应的权重ur,获取Ar={(a1,u1),(a2,u2),…,(ak,uk)}做为知识点“秦始皇”的属性集。在具体应用中,我们可以选择k=50,如图6所示,列出了知识点“秦始皇”的属性集中包含的部分属性及对应的权重。
之后以所述知识点“秦始皇”对应的属性集Ar为依据,采用知识抽取方法对电子书全文索引库进行句群抽取,比如,抽取的一个句群为“秦始皇(前259-前210)即嬴政。战国时秦国国君、秦王朝的建立者。秦庄襄王之子。秦始皇公元前246年至210年在位。”,得到与知识点“秦始皇”的属性集对应的所有的句群集合,并将所述句群集合与对应的知识点相关联。之后根据上述句群集合在电子书全文索引库中查询到其对应的篇章信息,并根据所述篇章信息查询到其所对应的电子书。比如在人物类电子书中搜索到《秦始皇评传》这部电子书,在历史类电子书中搜索到《秦始皇》这部历史小说,在事件类电子书中搜索到《破译秦皇》这部电子书等等,之后将所述搜索到的所有的电子书的集合与其对应的知识点“秦始皇”相关联。在具体应用中,所述电子书可以按照分类进行编辑,并且按照用户的点击搜索量在各个分类中进行排序展示,以提高用户的兴趣。
为知识点关联图片:在图片库的标题中使用知识点“秦始皇”的名称进行搜索,找到标题中包含“秦始皇”的图片集合,比如图片的标题为“秦始皇像”即可认为是知识点名称“秦始皇”相对应的图片,之后为知识点“秦始皇”关联所述图片集合。
因为知识点与图片、电子书、句群等都相关联,当用户搜索知识点“秦始皇”时,得到的搜索结果如图7所示,与知识点“秦始皇”相关联的句群、图片、电子书等知识都会通过同一块版面呈现给用户,使得用户可以方便、快捷的直接获取知识点“秦始皇”中包含的知识,其它知识点也相类似,因此,本实施例可以以某一知识点为中心,组织该知识点所述领域内的知识。
为了增强各个知识点间的联系,还可以采用知识点关系强度度量方法,计算第一目标知识点“秦始皇”与所有第二目标知识点间的关系强度,进而获取从知识点“秦始皇”到其他知识点的关系强度信息。部分关系强度信息如图8所示,可以看到,知识点“秦始皇”与其它知识点如“秦朝”、“吕不韦”、“云梦秦律”等的关系强度信息是不同的,比如其与知识点“秦朝”的关系强度信息就比较高,为0.936765502,而与知识点“云梦秦律”的关系强度信息就比较低,只有0.462117157,则在构架以知识点“秦始皇”为中心的知识信息网中,知识点“秦朝”所包含的知识就离知识点“秦始皇”比较近,而知识点“云梦秦律”所包含的知识就离知识点“秦始皇”比较远,如图10所示,通过各个知识点与知识点“秦始皇”的关系强度信息,即可构架出以知识点“秦始皇”为中心的知识信息网,且与知识点“秦始皇”的关系强度信息越高的知识点,越靠近中心位置。从而为用户提供更好的体验,便于用户获取更多的知识。
实施例6
本实施例提供了一种用于知识服务的信息处理系统,如图11所示,包括:
知识点获取装置1,用于获取所有或部分知识点,作为知识点集合。
语义确定装置2,与所述知识点获取装置1相连,用于对所述知识点集合中的每个知识点,确定所述知识点的语义信息。
句群确定装置3,与所述语义确定装置2相连,用于根据所述语义信息,确定所述知识点对应的句群集合。
篇章确定装置4,与所述句群确定装置3相连,用于根据所述句群集合,确定所述知识点对应的篇章信息。
数字资源确定装置5,与所述篇章确定装置4相连,用于根据所述篇章信息,确定所述知识点对应的数字资源。
本实施例所述的用于知识服务的信息处理系统,综合考虑了知识点的语义信息,而不是简单的通过用户输入的关键词的名称关联出相应的知识,更加贴合用户的真实需求,能够根据知识点包含的语义信息关联出与用户需求最为贴合的相应的知识,真正实现了以知识点的方式组织领域内的知识,提升了用户的体验。
实施例7
在实施例6的基础上,如图12所示,所述语义确定装置2包括:
扩展单元21,用于采用关键词扩展方法,将知识点名称作为初始关键词进行扩展,得到知识点对应的扩展关键词ar及扩展关键词出现的次数vr。
语义获取单元22,用于获取知识点的属性集Ar={(a1,u1),(a2,u2),…,(ak,uk)}作为所述知识点的语义信息,其中ar为知识点的属性参数,ur为所述属性参数对应的权重,其中ur根据扩展关键词出现的次数vr得到,r=1,2,…,k,k为属性数目。
作为一种可选的方式,所述扩展单元21包括:
检索器211,用于将知识点名称作为初始关键词,根据预先给定的初始关键词进行检索,检索获得关键词。
循环器212,用于将检索获得的关键词作为下一次检索的基础,通过关键词迭代的方式进行循环检索。
判定器213,用于当一次检索得到的关键词与前一次检索得到的关键词误差在预设误差阈值内时,检索结束,将本次检索得到的关键词确定为扩展关键词ar,并记录扩展关键词出现的次数vr。
本实施例所述的用于知识服务的信息处理系统,采用关键词扩展方法,将知识点名称作为初始关键词进行扩展,可以获得初始关键词,也即知识点名称的多种表达方式以及多方面含义的词义,将知识点名称进行了合理有效的扩展,同时进行分词、去停用词、获取同现词的方式获得检索后的词语来进行初始关键词的扩展,将不需要的多余的词语去除,得到有效的词语,既提高了知识抽取的效率,也提高了扩展关键词的准确度。
作为一种可选的方式,所述句群确定装置3包括:
第一获取单元31,用于从电子书全文索引库获取初始句群,且初始句群中包括一个以上句子。
比较单元32,用于将初始句群长度与期望长度进行比较,根据比较结果确定需要进行扩展的初始句群。
抽取单元33,用于将对需要进行扩展的初始句群扩展后得到的最终句群输出,完成知识抽取,得到与所述知识点的属性集对应的句群集合。
第一关联单元34,用于将所述句群集合与对应的知识点相关联。
作为一种可选的方式,所述篇章确定装置4包括第一查询单元41,用于根据所述句群集合,查询到其在电子书全文索引库中对应的篇章信息作为所述知识点对应的篇章信息。
所述数字资源确定装置5包括第二查询单元51,用于根据所述篇章信息,查询到其在电子书全文索引库中对应的数字资源作为所述知识点对应的数字资源;第二关联单元52,用于将所述数字资源与对应的知识点相关联。
具体应用中,因为句群是从电子书全文索引库的篇章中抽取的,因此,获取了句群集合,就可以查询到其抽取自电子书全文索引库中的哪些篇章,而篇章又包含于电子书全文索引库中的数字资源(比如电子书)中,因此,获取了篇章信息,就可以查询到所述篇章选取自哪些数字资源,也即句群、篇章以及数字资源间是存在对应关系的,因此,当获取到句群集合时,也可以查询到其在电子书全文索引库中对应的数字资源,比如电子书,可以将用户要获取的知识点所对应的句群集合和数字资源根据用户的需要都通过同一版面呈现出来,用户看了句群的介绍,如果还想进一步了解相关知识,可以点击与句群相关的数字资源(电子书),获取更多的相关信息,大大提升了用户的体验度。
实施例8
在实施例6或实施例7所述实施例的基础上,本实施例所述的用于知识服务的信息处理系统,如图12所示,还包括图片关联装置6,与所述知识点获取装置1相连,用于为知识点关联图片。
作为一种可选的方式,所述图片关联装置6包括搜索单元61,用于在在图片库中搜索图片标题与知识点名称相对应的图片集合,将所述图片集合与知识点相关联。
本实施例所述的用于知识服务的信息处理系统,用户在输入知识点信息后,就可以获取到与知识点相关联的图片集合,可以使用户更加形象直观的了解知识点中蕴含的相关知识。
实施例9
在实施例6-实施例8任一所述实施例的基础上,本实施例所述的用于知识服务的信息处理系统,如图12所示,还包括构架装置7,与所述知识点获取装置1相连,用于构架以某一知识点为中心的知识信息网。
作为一种可选的方式,所述构架装置7包括:
关系强度确定单元71,用于从所述知识点集合选取一个知识点作为第一目标知识点,确定所述第一目标知识点与每个第二目标知识点的关系强度,其中,第二目标知识点为所有知识点集合中除所述第一目标知识点之外的所有知识点。
相关性确定单元72,用于根据确定的每个关系强度,确定与所述第一目标知识点相关的第二目标知识点。
构架单元73,用于将所述第一目标知识点与所有相关的第二目标知识点相关联,构架以选取的所述知识点为中心的知识信息网。
作为一种可选的方式,所述关系强度确定单元71包括:
第一计算器711,用于计算第一目标知识点与所有第二目标知识点的显性关系强度。
第二计算器712,用于计算第一目标知识点与所有第二目标知识点的隐性关系强度。
关系强度计算器713,用于根据所述显性关系强度和隐性关系强度确定第一目标知识点与所有第二目标知识点的关系强度。
本实施例所述的用于知识服务的信息处理系统,通过计算第一目标知识点与所有的第二目标知识点间的关系强度,进而获取从该知识点到其它知识点的关系强度信息,从而可以以该知识点为中心,按照所述关系强度信息来关联其它知识点的知识,从而构架出以该知识点为中心的知识信息网。因为一个知识点跟其它知识点往往有千丝万缕的显性关系和隐性关系,通过知识点关系强度度量方法能够准确度量知识点间的关系强度,提供从该知识点到其它知识点的准确的关系强度信息,为准确建立以该知识点为中心的知识信息网提供了有力的保障。用户通过输入该知识点信息,除了能调取出与该知识点相关联的图片、电子书、句群等知识,还能调取出以该知识点为中心的知识信息网,增大了用户的知识获取量,提升了用户的体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。