CN107844526B - 一种基于知识库的词汇关系链分析方法、系统及装置 - Google Patents
一种基于知识库的词汇关系链分析方法、系统及装置 Download PDFInfo
- Publication number
- CN107844526B CN107844526B CN201710948034.7A CN201710948034A CN107844526B CN 107844526 B CN107844526 B CN 107844526B CN 201710948034 A CN201710948034 A CN 201710948034A CN 107844526 B CN107844526 B CN 107844526B
- Authority
- CN
- China
- Prior art keywords
- words
- search
- analyzed
- obtaining
- encyclopedic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明公开了一种基于知识库的词汇关系链分析方法、系统及装置,包括根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。本发明通过在知识库和百科平台搜索库中进行分析,得到词与词之间的关系链,并通过列表进行展示,清楚直观,从而在资讯推荐过程中能够更好的处理优先级、相关性的问题,可广泛应用于知识库中。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于知识库的词汇关系链分析方法、系统及装置。
背景技术
推荐理论中,有一种理论方法叫基于知识库的推荐方法,主要是处理词与词之间关系强弱问题,目前没有开放的接口或系统提供这种服务,要使用这个推荐方法,必须搭建、维护一套知识库网络,然而现在的知识库网络中词汇之间的关系链比较薄弱,不能很好适用于进行资讯推荐。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能清楚直观,且基于知识库的词汇关系链分析方法、系统及装置。
本发明所采取的技术方案是:
一种基于知识库的词汇关系链分析方法,包括以下步骤:
根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表,这一步骤具体包括:
根据需分析词汇,在知识库中搜索得到对应的资讯文章;
对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表,这一步骤具体包括:
根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明所采用的另一个技术方案是:
一种基于知识库的词汇关系链分析系统,包括:
资讯分析单元,用于根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
百科分析单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
结果汇总单元,用于根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
作为所述的一种基于知识库的词汇关系链分析系统的进一步改进,所述的资讯分析单元包括:
文章查找单元,用于根据需分析词汇,在知识库中搜索得到对应的资讯文章;
资讯切词处理单元,用于对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
资讯统计单元,用于对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
关联词组合单元,用于将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
作为所述的一种基于知识库的词汇关系链分析系统的进一步改进,所述的百科分析单元包括:
搜索单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
百科切词处理单元,用于对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
百科统计单元,用于对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
交集处理单元,用于将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
平均计算单元,用于根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
作为所述的一种基于知识库的词汇关系链分析系统的进一步改进,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明所采用的再一个技术方案是:
一种基于知识库的词汇关系链分析装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于知识库的词汇关系链分析方法。
本发明的有益效果是:
本发明一种基于知识库的词汇关系链分析方法、系统及装置通过在知识库和百科平台搜索库中进行分析,得到词与词之间的关系链,并通过列表进行展示,清楚直观,从而在资讯推荐过程中能够更好地处理优先级、相关性的问题。
附图说明
图1是本发明一种基于知识库的词汇关系链分析方法的步骤流程图;
图2是本发明一种基于知识库的词汇关系链分析系统的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明一种基于知识库的词汇关系链分析方法,包括以下步骤:
根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
进一步作为优选的实施方式,所述的根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表,这一步骤具体包括:
根据需分析词汇,在知识库中搜索得到对应的资讯文章;
对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
进一步作为优选的实施方式,所述的根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表,这一步骤具体包括:
根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
进一步作为优选的实施方式,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明实施例中,采用“姚明”这个词作为需分析词汇,其hash值为191172162,在处理资讯时,会对知识库中对应的资讯文章进行手工或者机器切词来进行标签生成,如某一资讯的标签生成结果为:NBA、火箭队,对应hash值为163956537、93061448,则191172162对应的关联词列表中的key为163956537的词频加1,key为93061448的词频加1。然后191172162对应的关联组合列表中key为93061448_163956537的词频加1。
建立百科搜索关联词列表时,如在某百科平台搜索“姚明”,将搜索页面中的相关信息作为文本进行切词和统计词频,另外,不同百科平台的搜索结果中,关键词都有一些共同的特征(如关键词都有链接跳转到其对应的百科介绍页面),通过页面解释样式区分就能将这部分关键词提取出来,效果有时候比切词的效果更理想。本实施例中综合切词和解释的结果,搜索“姚明”,某一百科平台得到的结果可能为:NBA(29)、CBA(12)、火箭队(9);(词后面的为词频数)而另外一百科平台得到的结果可能为:NBA(21)、火箭队(11),本发明会综合不同百科平台的结果,取交集,然后取平均。因此,例子中最后结果为:NBA(25)、火箭队(10),故最终191172162对应的百科搜索关联词列表中key为163956537(NBA)的词频为25,key为93061448(火箭队)的词频为10。
参考图2,本发明一种基于知识库的词汇关系链分析系统,包括:
资讯分析单元,用于根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
百科分析单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
结果汇总单元,用于根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
进一步作为优选的实施方式,所述的资讯分析单元包括:
文章查找单元,用于根据需分析词汇,在知识库中搜索得到对应的资讯文章;
资讯切词处理单元,用于对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
资讯统计单元,用于对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
关联词组合单元,用于将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
进一步作为优选的实施方式,所述的百科分析单元包括:
搜索单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
百科切词处理单元,用于对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
百科统计单元,用于对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
交集处理单元,用于将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
平均计算单元,用于根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
进一步作为优选的实施方式,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明一种基于知识库的词汇关系链分析装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于知识库的词汇关系链分析方法。
从上述内容可知,本发明一种基于知识库的词汇关系链分析方法、系统及装置通过在知识库和百科平台搜索库中进行分析,得到词与词之间的关系链,并通过列表进行展示,清楚直观,从而在资讯推荐过程中能够更好的处理优先级、相关性的问题。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种基于知识库的词汇关系链分析方法,其特征在于,包括以下步骤:
根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果;
其中,所述的根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表,这一步骤具体包括:
根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
2.根据权利要求1所述的一种基于知识库的词汇关系链分析方法,其特征在于:所述的根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表,这一步骤具体包括:
根据需分析词汇,在知识库中搜索得到对应的资讯文章;
对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
3.根据权利要求1或2所述的一种基于知识库的词汇关系链分析方法,其特征在于:所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
4.一种基于知识库的词汇关系链分析系统,其特征在于,包括:
资讯分析单元,用于根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
百科分析单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
结果汇总单元,用于根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果;
其中,所述的百科分析单元包括:
搜索单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
百科切词处理单元,用于对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
百科统计单元,用于对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
交集处理单元,用于将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
平均计算单元,用于根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
5.根据权利要求4所述的一种基于知识库的词汇关系链分析系统,其特征在于:所述的资讯分析单元包括:
文章查找单元,用于根据需分析词汇,在知识库中搜索得到对应的资讯文章;资讯切词处理单元,用于对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
资讯统计单元,用于对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
关联词组合单元,用于将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
6.根据权利要求4或5所述的一种基于知识库的词汇关系链分析系统,其特征在于:所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
7.一种基于知识库的词汇关系链分析装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行如权利要求1~3任一项所述的基于知识库的词汇关系链分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710948034.7A CN107844526B (zh) | 2017-10-12 | 2017-10-12 | 一种基于知识库的词汇关系链分析方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710948034.7A CN107844526B (zh) | 2017-10-12 | 2017-10-12 | 一种基于知识库的词汇关系链分析方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107844526A CN107844526A (zh) | 2018-03-27 |
CN107844526B true CN107844526B (zh) | 2022-04-01 |
Family
ID=61661300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710948034.7A Active CN107844526B (zh) | 2017-10-12 | 2017-10-12 | 一种基于知识库的词汇关系链分析方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107844526B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508390B (zh) * | 2018-12-28 | 2021-12-14 | 北京金山安全软件有限公司 | 基于知识图谱的输入预测方法、装置和电子设备 |
CN109508391B (zh) * | 2018-12-28 | 2022-04-08 | 北京金山安全软件有限公司 | 基于知识图谱的输入预测方法、装置和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622451A (zh) * | 2012-04-16 | 2012-08-01 | 上海交通大学 | 电视节目标签自动生成系统 |
CN103294778A (zh) * | 2013-05-13 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 一种推送资讯信息的方法及系统 |
CN103514217A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 检索应用中检索条件的关联提示处理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8943054B2 (en) * | 2011-01-31 | 2015-01-27 | Social Resolve, Llc | Social media content management system and method |
-
2017
- 2017-10-12 CN CN201710948034.7A patent/CN107844526B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622451A (zh) * | 2012-04-16 | 2012-08-01 | 上海交通大学 | 电视节目标签自动生成系统 |
CN103514217A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 检索应用中检索条件的关联提示处理方法及系统 |
CN103294778A (zh) * | 2013-05-13 | 2013-09-11 | 百度在线网络技术(北京)有限公司 | 一种推送资讯信息的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107844526A (zh) | 2018-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104850554B (zh) | 一种搜索方法和系统 | |
US10268758B2 (en) | Method and system of acquiring semantic information, keyword expansion and keyword search thereof | |
KR101700585B1 (ko) | 온라인 제품 검색 방법 및 시스템 | |
US9430568B2 (en) | Method and system for querying information | |
US10437890B2 (en) | Enhanced document input parsing | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
JP2013504118A (ja) | クエリのセマンティックパターンに基づく情報検索 | |
CN105550253B (zh) | 一种类型关系的获取方法及装置 | |
CN107844526B (zh) | 一种基于知识库的词汇关系链分析方法、系统及装置 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN104462396A (zh) | 字符串处理方法和装置 | |
CN114625834A (zh) | 企业的行业信息确定方法、装置及电子设备 | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN107315739A (zh) | 一种语义分析方法 | |
CN106934007B (zh) | 关联信息的推送方法及装置 | |
CN106682107B (zh) | 数据库表关联关系确定方法及装置 | |
CN111492364A (zh) | 数据标注方法、装置及存储介质 | |
CN111124366B (zh) | 一种基于信息检索的需求追踪恢复方法 | |
CN104657343A (zh) | 识别音译名的方法及装置 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
CN113486086A (zh) | 一种基于特征工程的数据挖掘方法及系统 | |
JP2020181332A (ja) | 高精度類似画像検索方法、プログラム及び高精度類似画像検索装置 | |
CN115640464B (zh) | 一种基于共享推广管理的共享项目数据推送方法及装置 | |
CN113656443B (zh) | 数据拆解方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |