CN102073729A - 一种关系化知识共享平台及其实现方法 - Google Patents

一种关系化知识共享平台及其实现方法 Download PDF

Info

Publication number
CN102073729A
CN102073729A CN 201110007580 CN201110007580A CN102073729A CN 102073729 A CN102073729 A CN 102073729A CN 201110007580 CN201110007580 CN 201110007580 CN 201110007580 A CN201110007580 A CN 201110007580A CN 102073729 A CN102073729 A CN 102073729A
Authority
CN
China
Prior art keywords
attribute
entry
relativization
module
original language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110007580
Other languages
English (en)
Other versions
CN102073729B (zh
Inventor
王京津
陆海霞
严冰
曹建栋
陈浩然
陈恭明
严孙荣
唐益龙
梁东杰
夏寅
王坤
耿磊
李博
苏上海
韦晨曦
薛永刚
李永强
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201110007580 priority Critical patent/CN102073729B/zh
Publication of CN102073729A publication Critical patent/CN102073729A/zh
Application granted granted Critical
Publication of CN102073729B publication Critical patent/CN102073729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种关系化知识共享平台及其实现方法。该实现方法包括:获取词条以及与词条相关的原始语料;从原始语料中提取与词条相关联的至少一个属性以及对应的属性值,以形成词条属性库;获取用户的查询请求;利用查询请求在词条属性库中进行匹配;以及根据匹配结果输出并进而呈现关系化查询结果页面。通过上述所提供的技术方案,本发明提供了一种关系化知识共享平台及其实现方法,其通过对词条、属性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的查询结果页面,提高了用户的浏览体验。

Description

一种关系化知识共享平台及其实现方法
【技术领域】
本发明涉及网络技术,特别涉及一种关系化知识共享平台及其实现方法。
【背景技术】
随着互联网技术的发展,知识共享平台服务于互联网络中业已广泛应用。知识共享平台由大量用户对各种词条进行编辑,用以帮助有需要的人进行了解。目前,现有的知识共享平台是将某一词条的全部词条内容以目录形式统一呈现给用户,用户需要在众多词条内容中寻找自己想要的解释。例如,当用户想要了解周杰伦的专辑时,用户只能通过输入词条“周杰伦”来获取与周杰伦相关的所有词条内容,再从词条内容中寻找周杰伦的专辑,导致用户的浏览体验不佳。
【发明内容】
本发明实施例提供了一种关系化知识共享平台及其实现方法,其通过对词条、属性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的查询结果页面,提高了用户的浏览体验。
本发明提供了一种关系化知识共享平台的实现方法,包括:a.获取词条以及与所述词条相关的原始语料;b.从所述原始语料中提取与所述词条相关联的至少一个属性以及对应的属性值,以形成词条属性库;c.获取用户的查询请求;d.利用所述查询请求在所述词条属性库中进行匹配;以及e.根据匹配结果输出并进而呈现关系化查询结果页面。
根据本发明之一优选实施例,在所述步骤d中,若所述查询请求与所述词条相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现所述词条以及与所述词条相关联的所述属性。
根据本发明之一优选实施例,所述实现方法进一步包括:f.获取用户对所述属性的操作请求,进一步根据所述操作请求在所述关系化查询结果页面中呈现与所述属性对应的所述属性值。
根据本发明之一优选实施例,在所述步骤d中,若所述查询请求与所述词条及所述属性相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现与所述词条以及所述属性对应的所述属性值。
根据本发明之一优选实施例,在所述步骤d中,若所述查询请求与所述属性或所述属性值相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现与所述属性或所述属性值相关联的所述词条。
根据本发明之一优选实施例,所述步骤b包括:b1.获取所述词条的分类信息;b2.根据所述分类信息确定所述属性;b3.根据所述属性从所述原始语料中提取对应的属性值;b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
根据本发明之一优选实施例,所述步骤b1进一步包括:b11.对所述原始语料进行特征提取,以获得多个原始语料特征;b12.对所述多个原始语料特征进行权重计算,以分配对应的原始语料特征权重;b13.对所述多个原始语料特征进行向量化,以形成原始语料向量;b14.获取模型文件;b15.通过所述原始语料向量计算所述原始语料与所述模型文件的相似度;b16.根据所述相似度对所述词条进行分类,进而确定所述词条的分类信息。
根据本发明之一优选实施例,所述步骤b14进一步包括:b141.获取训练语料;b142.对所述训练语料进行特征提取,以获得多个训练语料特征;b143.对所述多个训练语料特征进行权重计算,以分配对应的训练语料特征权重;b144.对所述多个训练语料特征进行向量化,以形成训练语料向量;b145.对所述训练语料向量进行分类标注;b146.对分类标注后的所述训练语料向量进行训练,以形成所述模型文件。
根据本发明之一优选实施例,所述步骤b包括:b1.获取所述词条的标签信息;b2.根据所述标签信息确定所述属性;b3.根据所述属性从所述原始语料中提取对应的属性值;b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
本发明提供了一种关系化知识共享平台,包括:原始语料获取模块,获取词条以及与所述词条相关的原始语料;词条属性库形成模块,从所述原始语料中提取与所述词条相关联的至少一个属性以及对应的属性值,以形成词条属性库;输入模块,获取用户的查询请求;匹配模块,利用所述查询请求在所述词条属性库中进行匹配;以及输出模块,根据匹配结果输出并进而呈现关系化查询结果页面。
根据本发明之一优选实施例,若所述匹配模块判断所述查询请求与所述词条相匹配,则所述输出模块在所述关系化查询结果页面中呈现所述词条以及与所述词条相关联的所述属性。
根据本发明之一优选实施例,所述输入模块进一步获取用户对所述属性的操作请求,所述输出模块进一步根据所述操作请求在所述关系化查询结果页面中呈现与所述属性对应的所述属性值。
根据本发明之一优选实施例,若所述匹配模块判断所述查询请求与所述词条及所述属性相匹配,则所述输出模块在所述关系化查询结果页面中呈现与所述词条以及所述属性对应的所述属性值。
根据本发明之一优选实施例,若所述匹配模块判断所述查询请求与所述属性或所述属性值相匹配,则所述输出模块在所述关系化查询结果页面中呈现与所述属性或所述属性值相关联的所述词条。
根据本发明之一优选实施例,所述词条属性库形成模块包括:分类信息获取模块,获取所述词条的分类信息;属性确定模块,根据所述分类信息确定所述属性;属性值提取模块,根据所述属性从所述原始语料中提取对应的属性值;关联模块,关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
根据本发明之一优选实施例,所述分类信息获取模块包括:原始语料特征提取模块,对所述原始语料进行特征提取,以获得多个原始语料特征;原始语料特征权重计算模块,对所述多个原始语料特征进行权重计算,以分配对应的原始语料特征权重;原始语料向量化模块,对所述多个原始语料特征进行向量化,以形成原始语料向量;模型文件获取模块,获取模型文件;相似度计算模块,通过所述原始语料向量计算所述原始语料与所述模型文件的相似度;分类模块,根据所述相似度对所述词条进行分类,进而确定所述词条的分类信息。
根据本发明之一优选实施例,所述模型文件获取模块包括:训练语料获取模块,获取训练语料;训练语料特征提取模块,对所述训练语料进行特征提取,以获得多个训练语料特征;训练语料特征权重计算模块,对所述多个训练语料特征进行权重计算,以分配对应的训练语料特征权重;训练语料向量化模块,对所述多个训练语料特征进行向量化,以形成训练语料向量;分类标注模块,对所述训练语料向量进行分类标注;训练模块,对分类标注后的所述训练语料向量进行训练,以形成所述模型文件。
根据本发明之一优选实施例,所述词条属性库形成模块包括:标签信息获取模块,获取所述词条的标签信息;属性确定模块,根据所述标签信息确定所述属性;属性值提取模块,根据所述属性从所述原始语料中提取对应的属性值;关联模块,关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
通过上述所提供的技术方案,本发明提供了一种关系化知识共享平台及其实现方法,其通过对词条、属性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的查询结果页面,提高了用户的浏览体验。
【附图说明】
图1是本发明的关系化知识共享平台的实现方法的流程示意图;
图2是本发明的关系化知识共享平台的关系化查询结果页面的第一示意图;
图3是本发明的关系化知识共享平台的关系化查询结果页面的第二示意图;
图4是本发明的关系化知识共享平台的关系化查询结果页面的第三示意图;
图5是本发明的关系化知识共享平台的词条属性库形成方法的流程示意图。
图6是本发明的关系化知识共享平台的分类信息获取方法的流程示意图;
图7是本发明的关系化知识共享平台的模型文件获取方法的示意框图;
图8是本发明的关系化知识共享平台的示意框图;
图9是本发明的关系化知识共享平台的词条属性库形成模块的示意框图;
图10是本发明的关系化知识共享平台的分类信息获取模块的示意框图;
图11是本发明的关系化知识共享平台的模型文件获取模块的示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
首先请参见图1,图1是本发明的关系化知识共享平台的实现方法的流程示意图。
在步骤11中,获取词条以及与词条相关的原始语料。在本步骤中,原始语料可以是现有知识共享平台(例如,百度百科)中存在的以目录及段落方式按自然语言描述的词条内容,也可以是以该词条为关键词利用搜索引擎从网络中获得的网页资料。
在步骤12中,从原始语料中提取与词条相关联的至少一个属性以及对应的属性值,以形成词条属性库。例如,针对词条“周杰伦”,可以根据属性“专辑”从原始语料提取出周杰伦所出版的个人专辑的具体名称作为属性值,并可根据属性“广告代言”从原始语料提取出周杰伦所代言的具体广告作为属性值。在下文中将结合具体实施例详细描述词条属性库的具体形成方法。
在步骤13中,获取用户的查询请求。在本步骤中,用户可通过浏览器上的查询框输入具体的查询请求,例如“刘德华的生日是哪天”。在用户输入查询请求后,通过点击浏览器上的查询按钮,进而将该查询请求发送到关系化知识共享平台。
在步骤14中,利用查询请求在词条属性库中进行匹配。在本步骤中,首先对查询请求进行识别。具体识别过程可以包括:分词、过滤以及在关键字库进行匹配等。其中,分词的作用是将查询请求中的汉字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等。过滤的作用是去除标点符号、助词等无用信息。进行关键字库匹配的作用是确定是否可以识别出主题词和限制词等。例如,如果查询请求为“刘德华的生日是哪天”,则通过上述步骤可以识别出主题词“生日”和限制词“刘德华”。查询请求的具体识别过程为本领域公知技术,在此不再赘述。随后,利用识别出来的主题词和/或限制词在词条属性库中进行匹配。例如,利用“生日”和“刘德华”与词条属性库中的词条、属性和/或属性值进行匹配,从而获得匹配结果。在优选实施例中,可以对查询请求进行同义词扩充。例如,将“生日”扩充为“出生日期”。
在步骤15中,根据匹配结果输出并进而呈现关系化查询结果页面。在本步骤中,根据不同的匹配结果,输出并进而呈现不同的关系化查询结果页面。
在一实施例中,在步骤13中,若查询请求与词条相匹配,则在步骤14中,在关系化查询结果页面中呈现词条以及与词条相关联的属性。随后,获取用户对属性的操作请求,进一步根据操作请求在关系化查询结果页面中呈现与属性对应的属性值。例如,如图2所示,用户输入查询请求“周杰伦”,则关系化知识共享平台匹配到词条“周杰伦”,并将词条“周杰伦”以及与词条“周杰伦”相关联的属性(例如,发行专辑、广告代言等)呈现在关系化查询结果页面中。进一步的,用户可通过点击属性“发行专辑”来获取如图3所示的属性“发行专辑”对应的具体专辑名称。当然,用户可进一步通过点击专辑名称,进入对应专辑的编辑页面或直接获取该专辑。在本发明中,属性可进一步包括主属性和与主属性相关联的子属性。例如,可将“人物”作为周杰伦的主属性,而将“歌手”作为属性“人物”下面关联的子属性。
在图2中,词条与相关联属性之间是通过关联线连接的。但如图4所示,词条与相关联属性也可以通过列表形式呈现。此时,在列表的对应位置同样显示“编辑”、“展开”等操作按钮,进而根据用户的操作请求呈现相对应的属性值。
在另一实施例中,在步骤13中,若查询请求与词条及属性相匹配,则在步骤14中,在关系化查询结果页面中呈现与词条以及属性对应的属性值。例如,用户输入查询请求“刘德华的生日是哪天”,则关系化知识共享平台匹配到词条“刘德华”,并进一步匹配到与词条“刘德华”相关联的属性“生日”。此时,关系化知识共享平台将对应的属性值“1961年9月27日”呈现在关系化查询结果页面中。
在再一实施例中,在步骤13中,若查询请求与属性或属性值相匹配,则在步骤14中,在关系化查询结果页面中呈现与属性或属性值相关联的词条。例如,用户输入查询请求“四大天王”,则关系化知识共享平台匹配到词条“刘德华”、“郭富城”、“黎明”以及“张学友”都具有属性“四大天王”。此时,关系化知识共享平台将上述四个词条均呈现在关系化查询结果页面中,并与“四大天王”进行关联。
如图5所示,图5是本发明的关系化知识共享平台的词条属性库形成方法的流程示意图。
在步骤51中,获取词条的分类信息或标签信息。其中,分类信息可以通过词条在知识共享平台的现有分类获得。一般的知识共享平台都会按词条属性进行分类。例如,分为“自然”、“文化”、“人物”等大类,而“自然”又可分为“生物”、“天文”等小类,而“生物”又可分为“动物”、“植物”、“微生物”等更小类。当然,分类信息也可以通过其他方式获得,下文将描述一种通过机器聚类方式获得分类信息的方法。标签信息是指根据词条的属性在词条上添加的标记性信息。例如,词条“珠穆朗玛峰”可设置“西藏”、“喜马拉雅山脉”、“地理”等标签。
在步骤52中,根据分类信息或标签信息确定待提取的属性。例如,词条的分类信息为“人物”,则待提取的属性可以包括“出生年月”、“籍贯”、“身高”、“性别”。待提取的属性可以根据分类信息人工设定,也可以用统计方法从原始语料中提取出现比较频繁的字词作为属性。
在步骤53中,根据待提取的属性从原始语料中提取对应的属性值。在本步骤中,可通过属性值与属性的编辑特点提取对应的属性值。例如,如果针对属性“生日”,可以根据“生日”在原始语料出现位置,在出现位置前后提取符合日期格式的信息作为属性值。另外,对于含有表格等结构化数据的原始语料,同样可以在对应位置或栏位提取到相应的属性值。
在步骤54中,关联词条、属性以及属性值,以形成词条属性库。在本步骤中,词条属性库可以采用本领域公知的各种关系化数据库实现,在此不再赘述。
如图6所示,图6是本发明的关系化知识共享平台的分类信息获取方法的流程示意图。
在步骤61中,对原始语料进行特征提取,以获得多个原始语料特征。在本步骤中,可通过对原始语料进行分词及过滤处理,将分词及过滤后获得的字词作为原始语料特征。
在步骤62中,对多个原始语料特征进行权重计算,以分配对应的原始语料特征权重。例如,利用TF-IDF算法计算原始语料特征对应的TF-IDF权值。
在步骤63中,对多个原始语料特征进行向量化,以形成原始语料向量。具体向量化过程为本领域公知技术,在此也不再赘述。
在步骤64中,获取模型文件。模型文件中包括标注有不同分类信息的多个模型向量。模型文件的具体形成过程将在下文中进行详细描述。
在步骤65中,通过原始语料向量计算原始语料与模型文件的相似度。例如,可通过余弦相似度计算公式,根据原始语料向量与模型向量计算出原始语料向量与模型文件的余弦相似度。
在步骤65中,根据相似度对词条进行分类,进而确定词条的分类信息。例如,如果原始语料与模型文件的余弦相似度大于阈值,则认为二者属于同类,进而可确定出原始语料的分类信息。
如图7所示,图7是本发明的关系化知识共享平台的模型文件获取方法的流程示意图。
在步骤71中,获取训练语料。在本步骤中,训练语料可以是针对特定分类的词条内容或网页资料。
在步骤72中,对训练语料进行特征提取,以获得多个训练语料特征。在本步骤中,可通过对训练语料进行分词及过滤处理,将分词及过滤后获得的字词作为训练语料特征。
在步骤73中,对多个训练语料特征进行权重计算,以分配对应的训练语料特征权重。例如,利用TF-IDF算法计算训练语料特征对应的TF-IDF权值。
在步骤74中,对多个训练语料特征进行向量化,以形成训练语料向量。具体向量化过程为本领域公知技术,在此也不再赘述。
在步骤75中,对训练语料向量进行分类标注。在本步骤中,可通过人工方式或机器方式为每一训练语料向量标注对应的分类信息。
在步骤76中,对分类标注后的训练语料向量进行训练,以形成模型文件。在本步骤中,对同一分类的多个训练语料向量进行机器训练,以利用多个训练语料向量形成一个综合不同训练语料向量的模型向量,进而形成模型文件。
请参见图8,图8是本发明的关系化知识共享平台的示意框图。在本实施例中,关系化知识共享平台包括原始语料获取模块81、词条属性库形成模块82、匹配模块83、输入模块84以及输出模块85。
原始语料获取模块81用于获取词条以及与词条相关的原始语料。其中,原始语料可以是现有知识共享平台(例如,百度百科)中存在的以目录及段落方式按自然语言描述的词条内容,也可以是以该词条为关键词利用搜索引擎从网络中获得的网页资料。
词条属性库形成模块82用于从原始语料中提取与词条相关联的至少一个属性以及对应的属性值,以形成词条属性库。例如,针对词条“周杰伦”,词条属性库形成模块82可以根据属性“发行专辑”从原始语料提取出周杰伦所出版的个人专辑的具体名称作为属性值,并可根据属性“广告代言”从原始语料提取出周杰伦所代言的具体广告作为属性值。在下文中将结合具体实施例详细描述词条属性库形成模块82的具体结构。
输入模块84用于获取用户的查询请求。用户可通过浏览器上的查询框输入具体的查询请求,例如“刘德华的生日是哪天”。在用户输入查询请求后,通过点击浏览器上的查询按钮,进而将该查询请求发送到输入模块84。
匹配模块83用于利用查询请求在词条属性库中进行匹配。匹配模块83首先对查询请求进行识别。具体识别过程可以包括:分词、过滤以及在关键字库进行匹配等。其中,分词的作用是将查询请求中的汉字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等。过滤的作用是去除标点符号、助词等无用信息。进行关键字库匹配的作用是确定是否可以识别出主题词和限制词等。例如,如果查询请求为“刘德华的生日是哪天”,则通过上述步骤可以识别出主题词“生日”和限制词“刘德华”。查询请求的具体识别过程为本领域公知技术,在此不再赘述。随后,匹配模块83利用识别出来的主题词和/或限制词在词条属性库中进行匹配。例如,利用“生日”和“刘德华”与词条属性库中的词条、属性和/或属性值进行匹配,从而获得匹配结果。在优选实施例中,匹配模块83可以对查询请求进行同义词扩充。例如,将“生日”扩充为“出生日期”。
输出模块85用于根据匹配结果输出并进而呈现关系化查询结果页面。输出模块85根据不同的匹配结果,输出并进而呈现不同的关系化查询结果页面。
在一实施例中,若匹配模块83判断查询请求与词条相匹配,则输出模块85在关系化查询结果页面中呈现词条以及与词条相关联的属性。随后,输入模块84获取用户对属性的操作请求,输出模块85进一步根据操作请求在关系化查询结果页面中呈现与属性对应的属性值。例如,如图2所示,用户输入查询请求“周杰伦”,匹配模块83匹配到词条“周杰伦”,则输出模块85将词条“周杰伦”以及与词条“周杰伦”相关联的属性(例如,发行专辑、广告代言等)呈现在关系化查询结果页面中。进一步的,用户可通过点击属性“发行专辑”来获取如图3所示的属性“发行专辑”对应的具体专辑名称。当然,用户可进一步通过点击专辑名称,进入对应专辑的编辑页面或直接获取该专辑。在本发明中,属性可进一步包括主属性和与主属性相关联的子属性。例如,可将“人物”作为周杰伦的主属性,而将“歌手”作为属性“人物”下面关联的子属性。
在图2中,词条与相关联属性之间是通过关联线连接的。但如图4所示,词条与相关联属性也可以通过列表形式呈现。此时,在列表的对应位置同样显示“编辑”、“展开”等操作按钮,进而根据用户的操作请求呈现相对应的属性值。
在另一实施例中,若匹配模块83判断查询请求与词条及属性相匹配,则输出模块85在关系化查询结果页面中呈现与词条以及属性对应的属性值。例如,用户输入查询请求“刘德华的生日是哪天”,匹配模块83匹配到词条“刘德华”,并进一步匹配到与词条“刘德华”相关联的属性“生日”。此时,输出模块85将对应的属性值“1961年9月27日”呈现在关系化查询结果页面中。
在再一实施例中,若匹配模块83判断查询请求与属性或属性值相匹配,则输出模块85在关系化查询结果页面中呈现与属性或属性值相关联的词条。例如,用户输入查询请求“四大天王”,匹配模块83匹配到词条“刘德华”、“郭富城”、“黎明”以及“张学友”都具有属性“四大天王”。此时,输出模块85将上述四个词条均呈现在关系化查询结果页面中,并与“四大天王”进行关联。
如图9所示,图9是本发明的关系化知识共享平台的词条属性库形成模块的示意框图。在本实施例中,词条属性库形成模块包括分类信息获取模块90、标签信息获取模块91、属性确定模块92、属性值提取模块93以及关联模块94。
分类信息获取模块90用于获取词条的分类信息,标签信息获取模块91用于获取标签信息。其中,分类信息可以通过词条在知识共享平台的现有分类获得。一般的知识共享平台都会按词条属性进行分类。例如,分为“自然”、“文化”、“人物”等大类,而“自然”又可分为“生物”、“天文”等小类,而“生物”又可分为“动物”、“植物”、“微生物”等更小类。当然,分类信息也可以通过其他方式获得,下文将描述一种基于机器聚类方式的分类信息获取模块。标签信息是指根据词条的属性在词条上添加的标记性信息。例如,词条“珠穆朗玛峰”可设置“西藏”、“喜马拉雅山脉”、“地理”等标签。
属性确定模块92用于根据分类信息或标签信息确定待提取的属性。例如,词条的分类信息为“人物”,则待提取的属性可以包括“出生年月”、“籍贯”、“身高”、“性别”。待提取的属性可以根据分类信息人工设定,也可以用统计方法从原始语料中提取出现比较频繁的字词作为属性。
属性值提取模块93用于根据待提取的属性从原始语料中提取对应的属性值。属性值提取模块93可通过属性值与属性的编辑特点提取对应的属性值。例如,如果针对属性“生日”,属性值提取模块93可以根据“生日”在原始语料出现位置,在出现位置前后提取符合日期格式的信息作为属性值。另外,对于含有表格等结构化数据的原始语料,属性值提取模块93可以在对应位置或栏位提出到相应的属性值。
关联模块94用于关联词条、属性以及属性值,以形成词条属性库。其中,词条属性库可以采用本领域公知的各种关系化数据库实现,在此不再赘述。
如图10所示,图10是本发明的关系化知识共享平台的分类信息获取模块的示意框图。在本实施例中,分类信息获取模块可以包括原始语料特征提取模块101、原始语料特征权重计算模块102、原始语料向量化模块103、模型文件获取模块104、相似度计算模块105、分类模块106。
原始语料特征提取模块101用于对原始语料进行特征提取,以获得多个原始语料特征。原始语料特征提取模块101可通过对原始语料进行分词及过滤处理,将分词及过滤后获得的字词作为原始语料特征。
原始语料特征权重计算模块102用于对多个原始语料特征进行权重计算,以分配对应的原始语料特征权重。例如,利用TF-IDF算法计算原始语料特征对应的TF-IDF权值。
原始语料向量化模块103用于对多个原始语料特征进行向量化,以形成原始语料向量。具体向量化过程为本领域公知技术,在此也不再赘述。
模型文件获取模块104用于获取模型文件。模型文件中包括标注有不同分类信息的多个模型向量。模型文件获取模块104的具体结构将在下文中进行详细描述。
相似度计算模块105用于通过原始语料向量计算原始语料与模型文件的相似度。例如,可通过余弦相似度计算公式,根据原始语料向量与模型向量计算出原始语料向量与模型文件的余弦相似度。
分类模块106用于根据相似度对词条进行分类,进而确定词条的分类信息。例如,如果原始语料与模型文件的余弦相似度大于阈值,则认为二者属于同类,进而可确定出原始语料的分类信息。
如图11所示,图1是本发明的关系化知识共享平台的模型文件获取模块的示意框图。在本实施例中,模型文件获取模块包括训练语料获取模块111、训练语料特征提取模块112、训练语料特征权重计算模块113、训练语料向量化模块114、分类标注模块115、训练模块116。
训练语料获取模块111用于获取训练语料。其中,训练语料可以是针对特定分类的词条内容或网页资料。
训练语料特征提取模块112用于对训练语料进行特征提取,以获得多个训练语料特征。训练语料特征提取模块112可通过对训练语料进行分词及过滤处理,将分词及过滤后获得的字词作为训练语料特征。
训练语料特征权重计算模块113用于对多个训练语料特征进行权重计算,以分配对应的训练语料特征权重。例如,利用TF-IDF算法计算训练语料特征对应的TF-IDF权值。
训练语料向量化模块114用于对多个训练语料特征进行向量化,以形成训练语料向量。具体向量化过程为本领域公知技术,在此也不再赘述。
分类标注模块115用于对训练语料向量进行分类标注。分类标注模块115可通过人工方式或机器方式为每一训练语料向量标注对应的分类信息。
训练模块116用于对分类标注后的训练语料向量进行训练,以形成模型文件。训练模块116对同一分类的多个训练语料向量进行机器训练,以利用多个训练语料向量形成一个综合不同训练语料向量的模型向量,进而形成模型文件。
通过上述所提供的技术方案,本发明提供了一种关系化知识共享平台及其实现方法,其通过对词条、属性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的查询结果页面,提高了用户的浏览体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种关系化知识共享平台的实现方法,其特征在于,所述实现方法包括:
a.获取词条以及与所述词条相关的原始语料;
b.从所述原始语料中提取与所述词条相关联的至少一个属性以及对应的属性值,以形成词条属性库;
c.获取用户的查询请求;
d.利用所述查询请求在所述词条属性库中进行匹配;以及
e.根据匹配结果输出并进而呈现关系化查询结果页面。
2.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,在所述步骤d中,若所述查询请求与所述词条相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现所述词条以及与所述词条相关联的所述属性。
3.根据权利要求2所述的关系化知识共享平台的实现方法,其特征在于,所述实现方法进一步包括:f.获取用户对所述属性的操作请求,进一步根据所述操作请求在所述关系化查询结果页面中呈现与所述属性对应的所述属性值。
4.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,在所述步骤d中,若所述查询请求与所述词条及所述属性相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现与所述词条以及所述属性对应的所述属性值。
5.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,在所述步骤d中,若所述查询请求与所述属性或所述属性值相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现与所述属性或所述属性值相关联的所述词条。
6.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,所述步骤b包括:
b1.获取所述词条的分类信息;
b2.根据所述分类信息确定所述属性;
b3.根据所述属性从所述原始语料中提取对应的属性值;
b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
7.根据权利要求6所述的关系化知识共享平台的实现方法,其特征在于,所述步骤b1进一步包括:
b11.对所述原始语料进行特征提取,以获得多个原始语料特征;
b12.对所述多个原始语料特征进行权重计算,以分配对应的原始语料特征权重;
b13.对所述多个原始语料特征进行向量化,以形成原始语料向量;
b14.获取模型文件;
b15.通过所述原始语料向量计算所述原始语料与所述模型文件的相似度;
b16.根据所述相似度对所述词条进行分类,进而确定所述词条的分类信息。
8.根据权利要求7所述的关系化知识共享平台的实现方法,其特征在于,所述步骤b14进一步包括:
b141.获取训练语料;
b142.对所述训练语料进行特征提取,以获得多个训练语料特征;
b143.对所述多个训练语料特征进行权重计算,以分配对应的训练语料特征权重;
b144.对所述多个训练语料特征进行向量化,以形成训练语料向量;
b145.对所述训练语料向量进行分类标注;
b146.对分类标注后的所述训练语料向量进行训练,以形成所述模型文件。
9.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,所述步骤b包括:
b1.获取所述词条的标签信息;
b2.根据所述标签信息确定所述属性;
b3.根据所述属性从所述原始语料中提取对应的属性值;
b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
10.一种关系化知识共享平台,其特征在于,所述关系化知识共享平台包括:
原始语料获取模块,获取词条以及与所述词条相关的原始语料;
词条属性库形成模块,从所述原始语料中提取与所述词条相关联的至少一个属性以及对应的属性值,以形成词条属性库;
输入模块,获取用户的查询请求;
匹配模块,利用所述查询请求在所述词条属性库中进行匹配;以及
输出模块,根据匹配结果输出并进而呈现关系化查询结果页面。
11.根据权利要求10所述的关系化知识共享平台,其特征在于,若所述匹配模块判断所述查询请求与所述词条相匹配,则所述输出模块在所述关系化查询结果页面中呈现所述词条以及与所述词条相关联的所述属性。
12.根据权利要求11所述的关系化知识共享平台,其特征在于,所述输入模块进一步获取用户对所述属性的操作请求,所述输出模块进一步根据所述操作请求在所述关系化查询结果页面中呈现与所述属性对应的所述属性值。
13.根据权利要求10所述的关系化知识共享平台,其特征在于,若所述匹配模块判断所述查询请求与所述词条及所述属性相匹配,则所述输出模块在所述关系化查询结果页面中呈现与所述词条以及所述属性对应的所述属性值。
14.根据权利要求10所述的关系化知识共享平台,其特征在于,若所述匹配模块判断所述查询请求与所述属性或所述属性值相匹配,则所述输出模块在所述关系化查询结果页面中呈现与所述属性或所述属性值相关联的所述词条。
15.根据权利要求10所述的关系化知识共享平台,其特征在于,所述词条属性库形成模块包括:
分类信息获取模块,获取所述词条的分类信息;
属性确定模块,根据所述分类信息确定所述属性;
属性值提取模块,根据所述属性从所述原始语料中提取对应的属性值;
关联模块,关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
16.根据权利要求15所述的关系化知识共享平台,其特征在于,所述分类信息获取模块包括:
原始语料特征提取模块,对所述原始语料进行特征提取,以获得多个原始语料特征;
原始语料特征权重计算模块,对所述多个原始语料特征进行权重计算,以分配对应的原始语料特征权重;
原始语料向量化模块,对所述多个原始语料特征进行向量化,以形成原始语料向量;
模型文件获取模块,获取模型文件;
相似度计算模块,通过所述原始语料向量计算所述原始语料与所述模型文件的相似度;
分类模块,根据所述相似度对所述词条进行分类,进而确定所述词条的分类信息。
17.根据权利要求16所述的关系化知识共享平台,其特征在于,所述模型文件获取模块包括:
训练语料获取模块,获取训练语料;
训练语料特征提取模块,对所述训练语料进行特征提取,以获得多个训练语料特征;
训练语料特征权重计算模块,对所述多个训练语料特征进行权重计算,以分配对应的训练语料特征权重;
训练语料向量化模块,对所述多个训练语料特征进行向量化,以形成训练语料向量;
分类标注模块,对所述训练语料向量进行分类标注;
训练模块,对分类标注后的所述训练语料向量进行训练,以形成所述模型文件。
18.根据权利要求10所述的关系化知识共享平台,其特征在于,所述词条属性库形成模块包括:
标签信息获取模块,获取所述词条的标签信息;
属性确定模块,根据所述标签信息确定所述属性;
属性值提取模块,根据所述属性从所述原始语料中提取对应的属性值;
关联模块,关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
CN 201110007580 2011-01-14 2011-01-14 一种关系化知识共享平台及其实现方法 Active CN102073729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110007580 CN102073729B (zh) 2011-01-14 2011-01-14 一种关系化知识共享平台及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110007580 CN102073729B (zh) 2011-01-14 2011-01-14 一种关系化知识共享平台及其实现方法

Publications (2)

Publication Number Publication Date
CN102073729A true CN102073729A (zh) 2011-05-25
CN102073729B CN102073729B (zh) 2013-03-06

Family

ID=44032268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110007580 Active CN102073729B (zh) 2011-01-14 2011-01-14 一种关系化知识共享平台及其实现方法

Country Status (1)

Country Link
CN (1) CN102073729B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN102968458A (zh) * 2012-10-31 2013-03-13 北京百度网讯科技有限公司 一种基于永久知识编号的搜索结果优化方法和装置
CN103123636A (zh) * 2011-11-21 2013-05-29 北京百度网讯科技有限公司 建立词条分类模型的方法、词条自动分类的方法和装置
CN103235787A (zh) * 2013-03-28 2013-08-07 北京百度网讯科技有限公司 一种用于提供关于目标对象的目标信息的方法与设备
CN103309857A (zh) * 2012-03-06 2013-09-18 腾讯科技(深圳)有限公司 一种分类语料确定方法和设备
CN103324678A (zh) * 2013-05-27 2013-09-25 俞声 信息检索方法和装置
CN104021202A (zh) * 2014-06-16 2014-09-03 百度在线网络技术(北京)有限公司 一种知识共享平台的词条处理装置和方法
WO2014187076A1 (zh) * 2013-05-23 2014-11-27 华为技术有限公司 自然语言的生成方法及系统
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104765829A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息检索方法及装置
CN104765834A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
WO2017157198A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 属性获取方法和装置
WO2017173773A1 (zh) * 2016-04-07 2017-10-12 北京百度网讯科技有限公司 信息搜索方法和装置
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统
CN107908717A (zh) * 2017-11-13 2018-04-13 北京百度网讯科技有限公司 用于交互信息的方法及装置
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN108614828A (zh) * 2016-12-12 2018-10-02 北大方正集团有限公司 基于规则模板的语料分析方法及语料分析装置
CN110119410A (zh) * 2018-01-10 2019-08-13 北大方正集团有限公司 工具书数据的处理方法及装置、计算机设备和存储介质
CN111752922A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种建立知识数据库、实现知识查询的方法及装置
CN115801483A (zh) * 2023-02-10 2023-03-14 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149747A (zh) * 2006-09-21 2008-03-26 索尼株式会社 用于处理信息的装置和方法、以及程序
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN101393565A (zh) * 2008-11-07 2009-03-25 北京航空航天大学 基于本体的面向虚拟博物馆的搜索方法
US20100235390A1 (en) * 2009-03-16 2010-09-16 Fujitsu Limited Search device, search method, and computer-readable recording medium storing search program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149747A (zh) * 2006-09-21 2008-03-26 索尼株式会社 用于处理信息的装置和方法、以及程序
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN101393565A (zh) * 2008-11-07 2009-03-25 北京航空航天大学 基于本体的面向虚拟博物馆的搜索方法
US20100235390A1 (en) * 2009-03-16 2010-09-16 Fujitsu Limited Search device, search method, and computer-readable recording medium storing search program

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN103123636A (zh) * 2011-11-21 2013-05-29 北京百度网讯科技有限公司 建立词条分类模型的方法、词条自动分类的方法和装置
CN103123636B (zh) * 2011-11-21 2016-04-27 北京百度网讯科技有限公司 建立词条分类模型的方法、词条自动分类的方法和装置
CN103309857A (zh) * 2012-03-06 2013-09-18 腾讯科技(深圳)有限公司 一种分类语料确定方法和设备
CN103309857B (zh) * 2012-03-06 2018-11-09 深圳市世纪光速信息技术有限公司 一种分类语料确定方法和设备
CN102968458A (zh) * 2012-10-31 2013-03-13 北京百度网讯科技有限公司 一种基于永久知识编号的搜索结果优化方法和装置
CN102968458B (zh) * 2012-10-31 2018-10-16 北京百度网讯科技有限公司 一种基于永久知识编号的搜索结果优化方法和装置
CN103235787A (zh) * 2013-03-28 2013-08-07 北京百度网讯科技有限公司 一种用于提供关于目标对象的目标信息的方法与设备
WO2014187076A1 (zh) * 2013-05-23 2014-11-27 华为技术有限公司 自然语言的生成方法及系统
CN103324678A (zh) * 2013-05-27 2013-09-25 俞声 信息检索方法和装置
CN103324678B (zh) * 2013-05-27 2016-06-01 俞声 信息检索方法和装置
CN104021202A (zh) * 2014-06-16 2014-09-03 百度在线网络技术(北京)有限公司 一种知识共享平台的词条处理装置和方法
CN104021202B (zh) * 2014-06-16 2017-11-24 百度在线网络技术(北京)有限公司 一种知识共享平台的词条处理装置和方法
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104484461B (zh) * 2014-12-29 2018-03-23 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104765834A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN104765829B (zh) * 2015-04-13 2018-06-19 天脉聚源(北京)传媒科技有限公司 一种信息检索方法及装置
CN104765834B (zh) * 2015-04-13 2019-01-18 天脉聚源(北京)传媒科技有限公司 一种信息搜索方法及装置
CN104765829A (zh) * 2015-04-13 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种信息检索方法及装置
CN107203548A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 属性获取方法和装置
WO2017157198A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 属性获取方法和装置
CN105893556B (zh) * 2016-03-31 2020-04-14 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
WO2017173773A1 (zh) * 2016-04-07 2017-10-12 北京百度网讯科技有限公司 信息搜索方法和装置
CN108614828A (zh) * 2016-12-12 2018-10-02 北大方正集团有限公司 基于规则模板的语料分析方法及语料分析装置
CN108614828B (zh) * 2016-12-12 2020-12-29 北大方正集团有限公司 基于规则模板的语料分析方法及语料分析装置
CN107247709A (zh) * 2017-07-28 2017-10-13 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统
CN107247709B (zh) * 2017-07-28 2021-03-16 广州多益网络股份有限公司 一种百科词条标签的优化方法及系统
CN107908717A (zh) * 2017-11-13 2018-04-13 北京百度网讯科技有限公司 用于交互信息的方法及装置
CN110119410A (zh) * 2018-01-10 2019-08-13 北大方正集团有限公司 工具书数据的处理方法及装置、计算机设备和存储介质
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN111752922A (zh) * 2020-06-28 2020-10-09 中国银行股份有限公司 一种建立知识数据库、实现知识查询的方法及装置
CN115801483B (zh) * 2023-02-10 2023-05-19 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统
CN115801483A (zh) * 2023-02-10 2023-03-14 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统

Also Published As

Publication number Publication date
CN102073729B (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
CN102073729B (zh) 一种关系化知识共享平台及其实现方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
WO2019085236A1 (zh) 检索意图识别方法、装置、电子设备及可读存储介质
US20110295775A1 (en) Associating media with metadata of near-duplicates
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN104866554B (zh) 一种基于社会化标注的个性化搜索方法及系统
Falk et al. Classifying French verbs using French and English lexical resources
US8606780B2 (en) Image re-rank based on image annotations
CN106934005A (zh) 一种基于密度的文本聚类方法
CN112559684A (zh) 一种关键词提取及信息检索方法
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
CN111813955B (zh) 一种基于知识图谱表示学习的服务聚类方法
CN111428503B (zh) 同名人物的识别处理方法及处理装置
WO2022068543A1 (zh) 一种多媒体内容发布的方法、装置、电子设备及存储介质
JP2012221316A (ja) 文書トピック抽出装置及び方法及びプログラム
CN106897437B (zh) 一种知识系统的高阶规则多分类方法及其系统
Torunoğlu et al. Wikipedia based semantic smoothing for twitter sentiment classification
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
CN111966899B (zh) 搜索排序方法、系统及计算机可读存储介质
CN112148938A (zh) 一种跨域异构数据检索系统及检索方法
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
Tian et al. A multi-modal topic model for image annotation using text analysis
Saravanan et al. Extraction of Core Web Content from Web Pages using Noise Elimination.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant