CN107844526B - 一种基于知识库的词汇关系链分析方法、系统及装置 - Google Patents

一种基于知识库的词汇关系链分析方法、系统及装置 Download PDF

Info

Publication number
CN107844526B
CN107844526B CN201710948034.7A CN201710948034A CN107844526B CN 107844526 B CN107844526 B CN 107844526B CN 201710948034 A CN201710948034 A CN 201710948034A CN 107844526 B CN107844526 B CN 107844526B
Authority
CN
China
Prior art keywords
words
search
analyzed
obtaining
encyclopedic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710948034.7A
Other languages
English (en)
Other versions
CN107844526A (zh
Inventor
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Iimedia Information Consulting Co ltd
Original Assignee
Guangzhou Iimedia Information Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Iimedia Information Consulting Co ltd filed Critical Guangzhou Iimedia Information Consulting Co ltd
Priority to CN201710948034.7A priority Critical patent/CN107844526B/zh
Publication of CN107844526A publication Critical patent/CN107844526A/zh
Application granted granted Critical
Publication of CN107844526B publication Critical patent/CN107844526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种基于知识库的词汇关系链分析方法、系统及装置,包括根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。本发明通过在知识库和百科平台搜索库中进行分析,得到词与词之间的关系链,并通过列表进行展示,清楚直观,从而在资讯推荐过程中能够更好的处理优先级、相关性的问题,可广泛应用于知识库中。

Description

一种基于知识库的词汇关系链分析方法、系统及装置
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于知识库的词汇关系链分析方法、系统及装置。
背景技术
推荐理论中,有一种理论方法叫基于知识库的推荐方法,主要是处理词与词之间关系强弱问题,目前没有开放的接口或系统提供这种服务,要使用这个推荐方法,必须搭建、维护一套知识库网络,然而现在的知识库网络中词汇之间的关系链比较薄弱,不能很好适用于进行资讯推荐。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能清楚直观,且基于知识库的词汇关系链分析方法、系统及装置。
本发明所采取的技术方案是:
一种基于知识库的词汇关系链分析方法,包括以下步骤:
根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表,这一步骤具体包括:
根据需分析词汇,在知识库中搜索得到对应的资讯文章;
对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表,这一步骤具体包括:
根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明所采用的另一个技术方案是:
一种基于知识库的词汇关系链分析系统,包括:
资讯分析单元,用于根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
百科分析单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
结果汇总单元,用于根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
作为所述的一种基于知识库的词汇关系链分析系统的进一步改进,所述的资讯分析单元包括:
文章查找单元,用于根据需分析词汇,在知识库中搜索得到对应的资讯文章;
资讯切词处理单元,用于对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
资讯统计单元,用于对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
关联词组合单元,用于将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
作为所述的一种基于知识库的词汇关系链分析系统的进一步改进,所述的百科分析单元包括:
搜索单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
百科切词处理单元,用于对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
百科统计单元,用于对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
交集处理单元,用于将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
平均计算单元,用于根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
作为所述的一种基于知识库的词汇关系链分析系统的进一步改进,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明所采用的再一个技术方案是:
一种基于知识库的词汇关系链分析装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于知识库的词汇关系链分析方法。
本发明的有益效果是:
本发明一种基于知识库的词汇关系链分析方法、系统及装置通过在知识库和百科平台搜索库中进行分析,得到词与词之间的关系链,并通过列表进行展示,清楚直观,从而在资讯推荐过程中能够更好地处理优先级、相关性的问题。
附图说明
图1是本发明一种基于知识库的词汇关系链分析方法的步骤流程图;
图2是本发明一种基于知识库的词汇关系链分析系统的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明一种基于知识库的词汇关系链分析方法,包括以下步骤:
根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
进一步作为优选的实施方式,所述的根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表,这一步骤具体包括:
根据需分析词汇,在知识库中搜索得到对应的资讯文章;
对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
进一步作为优选的实施方式,所述的根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表,这一步骤具体包括:
根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
进一步作为优选的实施方式,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明实施例中,采用“姚明”这个词作为需分析词汇,其hash值为191172162,在处理资讯时,会对知识库中对应的资讯文章进行手工或者机器切词来进行标签生成,如某一资讯的标签生成结果为:NBA、火箭队,对应hash值为163956537、93061448,则191172162对应的关联词列表中的key为163956537的词频加1,key为93061448的词频加1。然后191172162对应的关联组合列表中key为93061448_163956537的词频加1。
建立百科搜索关联词列表时,如在某百科平台搜索“姚明”,将搜索页面中的相关信息作为文本进行切词和统计词频,另外,不同百科平台的搜索结果中,关键词都有一些共同的特征(如关键词都有链接跳转到其对应的百科介绍页面),通过页面解释样式区分就能将这部分关键词提取出来,效果有时候比切词的效果更理想。本实施例中综合切词和解释的结果,搜索“姚明”,某一百科平台得到的结果可能为:NBA(29)、CBA(12)、火箭队(9);(词后面的为词频数)而另外一百科平台得到的结果可能为:NBA(21)、火箭队(11),本发明会综合不同百科平台的结果,取交集,然后取平均。因此,例子中最后结果为:NBA(25)、火箭队(10),故最终191172162对应的百科搜索关联词列表中key为163956537(NBA)的词频为25,key为93061448(火箭队)的词频为10。
参考图2,本发明一种基于知识库的词汇关系链分析系统,包括:
资讯分析单元,用于根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
百科分析单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
结果汇总单元,用于根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
进一步作为优选的实施方式,所述的资讯分析单元包括:
文章查找单元,用于根据需分析词汇,在知识库中搜索得到对应的资讯文章;
资讯切词处理单元,用于对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
资讯统计单元,用于对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
关联词组合单元,用于将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
进一步作为优选的实施方式,所述的百科分析单元包括:
搜索单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
百科切词处理单元,用于对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
百科统计单元,用于对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
交集处理单元,用于将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
平均计算单元,用于根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
进一步作为优选的实施方式,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明一种基于知识库的词汇关系链分析装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行所述的基于知识库的词汇关系链分析方法。
从上述内容可知,本发明一种基于知识库的词汇关系链分析方法、系统及装置通过在知识库和百科平台搜索库中进行分析,得到词与词之间的关系链,并通过列表进行展示,清楚直观,从而在资讯推荐过程中能够更好的处理优先级、相关性的问题。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种基于知识库的词汇关系链分析方法,其特征在于,包括以下步骤:
根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果;
其中,所述的根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表,这一步骤具体包括:
根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
2.根据权利要求1所述的一种基于知识库的词汇关系链分析方法,其特征在于:所述的根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表,这一步骤具体包括:
根据需分析词汇,在知识库中搜索得到对应的资讯文章;
对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
3.根据权利要求1或2所述的一种基于知识库的词汇关系链分析方法,其特征在于:所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
4.一种基于知识库的词汇关系链分析系统,其特征在于,包括:
资讯分析单元,用于根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
百科分析单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
结果汇总单元,用于根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果;
其中,所述的百科分析单元包括:
搜索单元,用于根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
百科切词处理单元,用于对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
百科统计单元,用于对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
交集处理单元,用于将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
平均计算单元,用于根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
5.根据权利要求4所述的一种基于知识库的词汇关系链分析系统,其特征在于:所述的资讯分析单元包括:
文章查找单元,用于根据需分析词汇,在知识库中搜索得到对应的资讯文章;资讯切词处理单元,用于对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
资讯统计单元,用于对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
关联词组合单元,用于将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
6.根据权利要求4或5所述的一种基于知识库的词汇关系链分析系统,其特征在于:所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
7.一种基于知识库的词汇关系链分析装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述程序,所述程序使得所述处理器执行如权利要求1~3任一项所述的基于知识库的词汇关系链分析方法。
CN201710948034.7A 2017-10-12 2017-10-12 一种基于知识库的词汇关系链分析方法、系统及装置 Active CN107844526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710948034.7A CN107844526B (zh) 2017-10-12 2017-10-12 一种基于知识库的词汇关系链分析方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710948034.7A CN107844526B (zh) 2017-10-12 2017-10-12 一种基于知识库的词汇关系链分析方法、系统及装置

Publications (2)

Publication Number Publication Date
CN107844526A CN107844526A (zh) 2018-03-27
CN107844526B true CN107844526B (zh) 2022-04-01

Family

ID=61661300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710948034.7A Active CN107844526B (zh) 2017-10-12 2017-10-12 一种基于知识库的词汇关系链分析方法、系统及装置

Country Status (1)

Country Link
CN (1) CN107844526B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508390B (zh) * 2018-12-28 2021-12-14 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109508391B (zh) * 2018-12-28 2022-04-08 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622451A (zh) * 2012-04-16 2012-08-01 上海交通大学 电视节目标签自动生成系统
CN103294778A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种推送资讯信息的方法及系统
CN103514217A (zh) * 2012-06-30 2014-01-15 重庆新媒农信科技有限公司 检索应用中检索条件的关联提示处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943054B2 (en) * 2011-01-31 2015-01-27 Social Resolve, Llc Social media content management system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622451A (zh) * 2012-04-16 2012-08-01 上海交通大学 电视节目标签自动生成系统
CN103514217A (zh) * 2012-06-30 2014-01-15 重庆新媒农信科技有限公司 检索应用中检索条件的关联提示处理方法及系统
CN103294778A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种推送资讯信息的方法及系统

Also Published As

Publication number Publication date
CN107844526A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
CN104850554B (zh) 一种搜索方法和系统
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
KR101700585B1 (ko) 온라인 제품 검색 방법 및 시스템
US9430568B2 (en) Method and system for querying information
US10437890B2 (en) Enhanced document input parsing
CN104899322A (zh) 搜索引擎及其实现方法
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
CN105550253B (zh) 一种类型关系的获取方法及装置
CN107844526B (zh) 一种基于知识库的词汇关系链分析方法、系统及装置
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN104462396A (zh) 字符串处理方法和装置
CN114625834A (zh) 企业的行业信息确定方法、装置及电子设备
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN105512270B (zh) 一种确定相关对象的方法和装置
CN107315739A (zh) 一种语义分析方法
CN106934007B (zh) 关联信息的推送方法及装置
CN106682107B (zh) 数据库表关联关系确定方法及装置
CN111492364A (zh) 数据标注方法、装置及存储介质
CN111124366B (zh) 一种基于信息检索的需求追踪恢复方法
CN104657343A (zh) 识别音译名的方法及装置
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
CN113486086A (zh) 一种基于特征工程的数据挖掘方法及系统
JP2020181332A (ja) 高精度類似画像検索方法、プログラム及び高精度類似画像検索装置
CN115640464B (zh) 一种基于共享推广管理的共享项目数据推送方法及装置
CN113656443B (zh) 数据拆解方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant