CN102831185A - 一种词条推荐方法及装置 - Google Patents
一种词条推荐方法及装置 Download PDFInfo
- Publication number
- CN102831185A CN102831185A CN2012102723913A CN201210272391A CN102831185A CN 102831185 A CN102831185 A CN 102831185A CN 2012102723913 A CN2012102723913 A CN 2012102723913A CN 201210272391 A CN201210272391 A CN 201210272391A CN 102831185 A CN102831185 A CN 102831185A
- Authority
- CN
- China
- Prior art keywords
- entry
- association
- degree
- document
- entries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种词条推荐方法及装置。一种词条推荐方法包括:对预置词条集合中的元素关联信息进行初始化;根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;获得词条A之后,利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果。与现有技术相比,应用本发明所提供的技术方案,不需要人工对新发布词条进行预处理,从而有效地节省了人力成本。这样即便是新发布的词条,也可以为其生成推荐结果,有效解决了冷启动问题与数据稀疏问题。
Description
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种词条推荐方法及装置。
背景技术
随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了让用户能够更方便快捷地获得这些信息,推荐技术在信息系统得到了广泛应用。其中,关联推荐技术又成为推荐技术的一个重要组成部分,关联推荐技术的基本思想是,基于信息的一个或多个特征,找到不同信息之间的相关性,并进一步建立信息之间的联系关系,当用户浏览某一信息时,推荐系统会将与该信息具有联系关系的信息也推荐给用户。
对于关联推荐技术的研究重点,除了挖掘更多可用于推荐的特征之外,还在于如何在实际应用中根据这些特征建立起信息之间的关系。目前,较为常用的方式是根据用户行为建立信息之间的关系,以网络百科词条推荐为例,可以根据用户对词条的浏览、搜索等历史行为记录,分析用户的兴趣,然后根据单个或多个用户的兴趣相似程度,建立词条之间的联系关系,最后根据所建立的关系进行文档推荐。
但是,现有关联推荐方法,存在着很严重的冷启动问题与数据稀疏问题,所谓冷启动是指新发布的信息,数据稀疏则是指:对于有些信息,其本身的相关用户行为记录很少(或为0),因此难以根据用户行为产生推荐结果。目前常用的解决方案是通过人工干预的方式为新发布的信息预置一些推荐结果,但是这种方式需要消耗人力成本,并且要求操作人员具有丰富的先验知识,推荐结果也存在着较大的局限性和主观性,在实际应用中经常无法满足信息浏览者的实际需求。
发明内容
为解决上述技术问题,本发明实施例提供一种词条推荐方法及装置,以解决词条相关推荐中的冷启动问题与数据稀疏问题。具体技术方案如下:
一种词条推荐方法,该方法包括:
对预置词条集合中的元素关联信息进行初始化;
根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
获得词条A之后,利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果。
根据本发明的一种具体实施方式,所述根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
根据本发明的一种具体实施方式,所述根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
根据本发明的一种具体实施方式,所述利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果,包括:
根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成推荐结果。
根据本发明的一种具体实施方式,该方法还包括:
在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
根据本发明的一种具体实施方式,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词条构成推荐结果。
根据本发明的一种具体实施方式,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积较大的词条构成推荐结果。
一种词条推荐装置,该装置包括:
关联信息初始化单元,用于对预置词条集合中的元素关联信息进行初始化;
关联信息管理单元,用于根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
推荐单元,用于在获得词条A之后,利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果。
根据本发明的一种具体实施方式,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
根据本发明的一种具体实施方式,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
根据本发明的一种具体实施方式,所述推荐单元,具体用于:
根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成推荐结果。
根据本发明的一种具体实施方式,所述推荐单元,还用于:
在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
根据本发明的一种具体实施方式,所述推荐单元,具体用于:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词条构成推荐结果。
根据本发明的一种具体实施方式,所述推荐单元,具体用于:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积较大的词条构成推荐结果。
本发明实施例所提供的技术方案,基于词条在各种文档中共同出现的程度,建立词条之间关联信息。对于任意两个词条,在文档中共现的频率越高,说明这两个词条的关联度越强,通过对大量文档的分析,可以建立完整的词条关联网络,当用户浏览到网络中的某个词条时,就可以根据该词条的在网络中的相邻节点生成推荐结果。
与现有技术相比,应用本发明所提供的技术方案,不需要人工对新发布词条进行预处理,从而有效地节省了人力成本。此外,与现有的基于用户行为建立词条关联信息的实现方式相比,本发明方案通过对客观存在的文本进行分析、根据词条共现关系建立关联信息,能够有效减少用户行为的主观性对推荐结果的影响,从而进一步提升推荐系统的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例词条推荐方法的一种流程图;
图2为本发明实施例词条推荐装置的一种结构示意图。
具体实施方式
首先对本发明实施例所提供的一种词条推荐方法进行说明,该方法可以包括以下步骤:
对预置词条集合中的元素关联信息进行初始化;
根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
获得词条A之后,利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果。
本发明实施例中的词条,可以表现为多种形式,例如可以是百科平台中的词条、搜索平台中的关键词、甚至是电子商务平台的商品名称等等,这些并不影响本发明方案的实现。
本发明实施例所提供的词条推荐方法,是在一定的词条范围内进行,也就是说,根据不同的应用环境,都存在一个预置的词条集合。例如:在百科平台进行推荐,则所有的百科词条构成预置的词条集合;在搜索平台进行推荐,则该平台中所有的关键词(包括用户使用过的或系统生成的)构成预置的词条集合;在电子商务平台进行推荐,则该平台中所有的商品名称构成预置的词条集合。当然,根据实际的应用需要,可以灵活设置推荐范围的大小,小至某个具体的词条主题类别,大至全互联网范围,本发明对此并不需要进行限定。
本发明实施例所提供的技术方案,对于词条A和词条B,如果词条A和词条B都属于预置的词条集合、并且在同一文档中出现,则增加词条A和词条B的关联度,重复以上步骤,后通过对大量文档进行分析,就能够建立起集合内所有词条的关联信息。
本发明实施例中的文档,可以表现为多种形式,例如可以是TXT、DOC、PDF等文件形式的文档,也可以是网页形式的文档;另外,可以根据实际需求对文档的范围大小进行设置,例如文档可以是一本书、一篇文章、或者一个段落,等等;文档的来源可以是在线的网页或者文本文件,也可以是离线的资源,这些并不影响本发明方案的实现。
应用本发明所提供的技术方案,最终所建立的词条关联信息表现为一张词条关系网络图,该网络以词条为节点,以词条间的关联关系为节点连线。在推荐过程中,除了可以基于直接相连的节点进行推荐之外,还可以基于间接相连的节点进行推荐,可以有效提高信息的扩展性,增加用户的访问步长。此外,本发明在建立词条关联信息的基础上,还引入了“关联度”的概念,其中,两个词条之间的关联度是根据这两个词条在大量文档中的共现频率确定的,可以有效地反映词条间的关联程度,对于词条A,如果具有较多的直接相连节点和间接相连节点,则在推荐过程中,可以词条A与其他节点的关联度的大小,确定推荐的优先顺序,以实现更为准确的推荐。
与现有技术相比,应用本发明所提供的技术方案,不需要人工对新发布文档进行预处理,从而有效地节省了人力成本。此外,与现有的基于用户行为建立词条关联信息的实现方式相比,本发明方案通过对客观存在的文本进行分析、根据词条共现关系建立关联信息,能够有效减少用户行为的主观性对推荐结果的影响,从而进一步提升推荐系统的性能。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
图1所示为本发明实施例所提供的一种词条推荐方法的流程图,该方法可以包括以下步骤:
S101,对预置词条集合中的元素关联信息进行初始化;
本发明的所提供的方案是,根据词条在各类文档中的共现情况建立词条之间的关联信息。也就对于一个预置的词条集合{Dn}(其中n=1、2、3……N,N为集合中的词条总数),需要建立其中任意两个词条Di、Dj之间的关联信息,最终构成一张词条关系网络图。
词条推荐的基本思想是,在某个知识领域范围内,对其中具有某种关系的词条进行相互推荐,而这些词条应该是有一定的专业性,才具有实际的推荐意义。但是在实际应用中,有些平台中的词条包含范围极广,除了专业词条之外,还包括各种常用词条,在这种情况下,应用本发明的方案可能会产生的一个问题是,对于一些常用词,会经常在各种文档中出现,然而对于这些常用词进行推荐实际是没有任何意义的。
例如,在百科平台中,“你”、“我”、“好”、“坏”等均为百科词条,并且这些词条会在各类文本中出现。也就是说,由于“预置的词条集合”涉及范围过广,可能会导致很多无意义的推荐,针对这种情况,也可以预先对“预置的词条集合”进行处理,例如滤掉其中的高频词,或者选取网络热度较高的词条加入集合,等等,本发明对此并不需要进行限定。
为了建立集合中词条之间的关联信息,首先需要对词条之间的关系进行初始化,默认情况下,可以将所有词条之间的关系初始化为0。
在一种具体实施方式中,可以将预置的词条集合初始化为一个图(graph),词条集合中的每一个词条构成该图的点集合,后续如果有新词条加入集合,则在图中相应增加一个点。
图的初始边集合为空(即任意两点间的边权重为0),表示任意两个词条的初始关联度为0。
可以理解的是,根据实际的需求,也可以基于其他一些已有的数据对词条的关联信息进行初始化,例如,可以预先根据词条所归属的类别、文本相似度、相关用户行为等方面,为不同的词条赋予一些初始的关联度,而不是全部初始化为0。
词条分类是指按照根据词条或内容的属性,对词条集合中的每一个词条确定一个类别。这样,用户不但能够方便地在特定的类别浏览词条,而且可以通过限制搜索范围来使词条的查找更为容易。对于词条B1和词条B2,如果二者本身处于相同的类别,则可以建立词条B1和词条B2的关联关系。例如,词条B1“中考语文阅读”和词条B2“中考语文作文”都属于“教育/考试”的类别,则可以为词条B1和词条B2的赋予一定量的初始关联度。
文本相似度是指两个词条在文本上的相似程度,在词条长度足够的情况下,可以对于相似程度较高的两个词条赋予初始关联度。例如,词条B1“中考语文阅读”和词条B2“中考语文作文”的文本有较大比例的相似程度,那么,可以为词条B1和词条B2的赋予一定量的初始关联度。
对于任意两个词条B1和B2,如果在用户的访问过程中,体现出了相关性,则可以建立词条B1和词条B2的关联关系。其中“用户的访问”可以包括浏览、搜索、主动推荐等行为。例如,某用户在某次浏览过程中,先浏览了词条B1“中考语文阅读”,然后又浏览了词条B2“中考语文作文”,则可以为词条B1和词条B2的赋予一定量的初始关联度。
可以理解的是,本发明可以仅根据词条在文档中的共现关系建立词条间的关联信息(即将所有词条间的关联度初始化为0),而词条的“已有的关联信息”对于本发明而言并不是必须的。当然,上述的“已有的关联信息”可以和本发明所建立的关联信息共同作用,而且“已有的关联信息”可以是以任何方式获得的,上述三种方案仅作示意性说明。在实际应用中,三种方案既可以独立使用,也可以结合使用。当然,在不脱离本发明的基本思想的前提下,本领域技术人员也可以采用其他的建立关联信息的方法,并且这些方法既可以独立使用,也可以与本发明实施例所提供的方法结合使用。
S102,根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
本发明方案,是基于对大量文档的分析和统计,为词条增加关联度。也就是说,对于词条A和词条B,如果这两个词条同时出现在一篇文档中,则在词条集合中,对“词条A和词条B的关联度”增加一个单位的关联度。
可以理解的是,在对文档进行分析的过程中,需要进行必要的分词处理,以便提取出整篇文档中所包含的词条。
根据本发明的一种具体实现方式,对于预先建立的图,假设按照默认的初始化方式,图的初始边集合为空(即任意两点间的边权重为0),对于任意的两个点A和B,如果对应的词条同时出现在文档X中,则在这两个点之间增加一条边,如果对应的词条又同时出现在文档Y中,则增加已有边的权重……如此反复,通过分析大量的已有文本,逐步增加边的数量与权重。最终得到一张词条关系网络图。
为了更好地体现“共现”对于推荐的意义,在本发明的一种具体实施方式中,可以进一步根据词条的TF-IDF来增加词条之间的关联度。
TF-IDF(term frequency–inverse document frequency,词频-逆文档频率)。TF-IDF是一种统计方法,用以评估一个词条对于文档集中一个文档的重要程度。词条的重要性随着它在单一文档中出现的次数成正比增加,但同时会随着它在整个文档集中出现的频率成反比下降。在一份给定的文档里,TF(termfrequency,词频)指的是某一个给定的词语在该文档中出现的次数。而IDF(inverse document frequency,逆向文档频率)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文档数目除以包含该词语之文档的数目,再将得到的商取对数得到。某一特定文档内的高词语频率,以及该词语在整个文档集合中的低文档频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
根据TF-IDF的作用,本发明所提供的一种具体实施方式是:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度。
根据上述实施方式,假设在给定文档X中,发现10个词条属于预置的词条集合,那么可以对这10个词条按照TF-IDF进行排序,选取其中排名较高的前n个词条,对于这些选取词条,在所述词条集合中,增加对应元素之间的关联度,其中n为预设值,可以理解的是,一般情况下,n应不小于2。在n大于2的情况下,则需要对这n个词中的任意两个词之间进行关联度增加处理。
当然,也可以预先设置一个TF-IDF阈值,然后仅选取高于该阈值的词条,在所述词条集合中,增加对应元素之间的关联度。
上述方案中,由于引入了TF-IDF,因此可以使得选择出的词条是都是比较能够反映当前文档主题的文档,以此作为后续的推荐依据,也可以有效减少对一些常见词的无意义推荐。
在本发明的一种具体实施方式中,可以进一步根据词条在文档中的出现距离来增加词条之间的关联度。实现方案如下:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
根据研究发现,对于词条A和词条B,如果二者在文档中的出现距离较近,则这两个词条的关系会倾向于比较密切,相反,如果二者在文档中的出现距离较近,则这两个词条的关系会倾向于比较疏远,例如,在一篇文章同一个段落出现的两个词条,其存在实际关联的概率就会高于在不同段落出现的两个词条。
在具体实施过程中“位置关系满足预设要求”,可以是相对的关系,例如要求两个词条必须同时出现在一篇相同段落中;也可以是绝对的关系,例如要求两个词条的位置距离必须小于一定的阈值。
上述方案中,由于引入了词条位置,因此可以使得所确定的词条相关性更为严格,避免建立一些缺少实际意义的关联关系。
可以理解的是,本发明可以仅根据词条在文档中的共现关系增加词条间的关联度而不考虑其他的优化方式。并且上述两种优化方式仅作示意性说明。在实际应用中,两种方案既可以独立使用,也可以结合使用。当然,在不脱离本发明的基本思想的前提下,本领域技术人员也可以采用其他的优化方式,并且这些方法既可以独立使用,也可以与本发明实施例所提供的方法结合使用。
S103,获得词条A之后,利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果。
建立词条的关联信息之后,就可以根据已建立的关系进行词条推荐。假设对于词条A,直接关联词条包括B1、B2;
B1的直接关联词条,除A外,还包括C1、C2;
B2的直接关联词条,除A外,还包括C3、C4。
根据以上关系可知,对于词条A,直接关联词条包括B1、B2,直接关联的词条与A关联距离为1,也可以称为一级关联,间接关联词条包括C1、C2、C3、C4,这四个词条与A关联距离为2,也可以称为二级关联。当然,间接关联还可能包括三级关联、四级关联……,在本实施例中并未列出,而且考虑到在实际情况中,如果词条间的关联距离过大,其实际的关联度已经很小,一般不足以构成推荐的依据。因此一般情况下,可以选择当前词条的两级的关联词条构成推荐候选,当然这并不应该理解为对本发明的限制。在本实施例中,B1、B2、C1、C2、C3、C4构成了A的推荐候选集合,可以根据该集合生成词条A的推荐结果。
根据本发明的一种实施方式,在推荐过程中,可以优先选取直接关联的词条构成推荐结果,例如本实施例中的B1、B2;如果推荐结果数量不足,则可以依次优先选取二级关联词条、三级关联词条对推荐结果进行补充。
在本发明的一种优选实施方式中,对于与词条A关联距离相同的多个词条,可以引入“关联度”作为选取推荐结果的原则:
如果有多个词条和当前词条直接关联,那么优先选取其中与A的关联度较大的词条构成推荐结果。例如:
B1与A的关联度为90;
B2与A的关联度为10;
则在B1和B2之间,优先选择和A关联度较大的B1进行推荐。
如果有多个词条与词条A间接关联,那么优先选取路径关联度乘积较大的词条构成推荐结果。例如:
A与B1的关联度为10;
B1与C1的关联度为10;
B1与C2的关联度为15;
那么,C1与A的路径关联度乘积为10*10=100,C2与A的路径关联度乘积为10*15=150,应优先选取C2进行推荐。
在本发明的优选实施方式中,还可以对“路径关联度乘积”进行优化,例如:
对于与A关联距离较近的词条,在乘积过程中给予较大的权重,例如对于上述的A、B1、B2、C1、C2、C3、C4,在乘积过程中,对于A-B1、A-B2之间的关联度给予较大的权重,对于B1-C1、B1-C2、B2-C3、B2-C4之间的关联度给予较小的权重,其中,权重可以用线性系数的形式区分,也可以用指数的形式区分,本发明对此并不需要进行限定。
对于任一个词条,如果存在多个下一级别的直接关联词条,则首先对关联度进行归一化,再统一进行乘积处理。例如:
A与B1的关联度为10;
A与B2的关联度为90;
B1与C1的关联度为100;
B1与C2的关联度为900;
B2与C3的关联度为10;
B2与C4的关联度为90;
则进行归一化后的结果为:
A与B1的关联度为0.1;
A与B2的关联度为0.9;
B1与C1的关联度为0.1;
B1与C2的关联度为0.9;
B2与C3的关联度为0.1;
B2与C4的关联度为0.9。
最终得到的路径关联度乘积分别为:
A-B1-C1:0.1*0.1=0.01;
A-B1-C2:0.1*0.9=0.09;
A-B2-C3:0.9*0.1=0.09;
A-B2-C4:0.9*0.9=0.81;
可见,在C1-C4中,应该优先推荐C4。
应用上述技术方案,基于词条在各种文档中共同出现的程度,建立词条之间关联信息。对于任意两个词条,在文档中共现的频率越高,说明这两个词条的关联度越强,通过对大量文档的分析,可以建立完整的词条关联网络,当用户浏览到网络中的某个词条时,就可以根据该词条的在网络中的相邻节点生成推荐结果。
与现有技术相比,应用本发明所提供的技术方案,不需要人工对新发布文档进行预处理,从而有效地节省了人力成本。此外,与现有的基于用户行为建立词条关联信息的实现方式相比,本发明方案通过对客观存在的文本进行分析、根据词条共现关系建立关联信息,能够有效减少用户行为的主观性对推荐结果的影响,从而进一步提升推荐系统的性能。
相应于上面的方法实施例,本发明还提供一种词条推荐装置,参见图2所示,该装置包括:
关联信息初始化单元110,用于对预置词条集合中的元素关联信息进行初始化;
本发明的所提供的方案是,根据词条在各类文档中的共现情况建立词条之间的关联信息。也就对于一个预置的词条集合{Dn}(其中n=1、2、3……N,N为集合中的词条总数),需要建立其中任意两个词条Di、Dj之间的关联信息,最终构成一张词条关系网络图。
词条推荐的基本思想是,在某个知识领域范围内,对其中具有某种关系的词条进行相互推荐,而这些词条应该是有一定的专业性,才具有实际的推荐意义。但是在实际应用中,有些平台中的词条包含范围极广,除了专业词条之外,还包括各种常用词条,在这种情况下,应用本发明的方案可能会产生的一个问题是,对于一些常用词,会经常在各种文档中出现,然而对于这些常用词进行推荐实际是没有任何意义的。
例如,在百科平台中,“你”、“我”、“好”、“坏”等均为百科词条,并且这些词条会在各类文本中出现。也就是说,由于“预置的词条集合”涉及范围过广,可能会导致很多无意义的推荐,针对这种情况,也可以预先对“预置的词条集合”进行处理,例如滤掉其中的高频词,或者选取网络热度较高的词条加入集合,等等,本发明对此并不需要进行限定。
为了建立集合中词条之间的关联信息,首先需要对词条之间的关系进行初始化,默认情况下,可以将所有词条之间的关系初始化为0。
在一种具体实施方式中,可以将预置的词条集合初始化为一个图(graph),词条集合中的每一个词条构成该图的点集合,后续如果有新词条加入集合,则在图中相应增加一个点。
图的初始边集合为空(即任意两点间的边权重为0),表示任意两个词条的初始关联度为0。
可以理解的是,根据实际的需求,也可以基于其他一些已有的数据对词条的关联信息进行初始化,例如,可以预先根据词条所归属的类别、文本相似度、相关用户行为等方面,为不同的词条赋予一些初始的关联度,而不是全部初始化为0。
词条分类是指按照根据词条或内容的属性,对词条集合中的每一个词条确定一个类别。这样,用户不但能够方便地在特定的类别浏览词条,而且可以通过限制搜索范围来使词条的查找更为容易。对于词条B1和词条B2,如果二者本身处于相同的类别,则可以建立词条B1和词条B2的关联关系。例如,词条B1“中考语文阅读”和词条B2“中考语文作文”都属于“教育/考试”的类别,则可以为词条B1和词条B2的赋予一定量的初始关联度。
文本相似度是指两个词条在文本上的相似程度,在词条长度足够的情况下,可以对于相似程度较高的两个词条赋予初始关联度。例如,词条B1“中考语文阅读”和词条B2“中考语文作文”的文本有较大比例的相似程度,那么,可以为词条B1和词条B2的赋予一定量的初始关联度。
对于任意两个词条B1和B2,如果在用户的访问过程中,体现出了相关性,则可以建立词条B1和词条B2的关联关系。其中“用户的访问”可以包括浏览、搜索、主动推荐等行为。例如,某用户在某次浏览过程中,先浏览了词条B1“中考语文阅读”,然后又浏览了词条B2“中考语文作文”,则可以为词条B1和词条B2的赋予一定量的初始关联度。
可以理解的是,本发明可以仅根据词条在文档中的共现关系建立词条间的关联信息(即将所有词条间的关联度初始化为0),而词条的“已有的关联信息”对于本发明而言并不是必须的。当然,上述的“已有的关联信息”可以和本发明所建立的关联信息共同作用,而且“已有的关联信息”可以是以任何方式获得的,上述三种方案仅作示意性说明。在实际应用中,三种方案既可以独立使用,也可以结合使用。当然,在不脱离本发明的基本思想的前提下,本领域技术人员也可以采用其他的建立关联信息的方法,并且这些方法既可以独立使用,也可以与本发明实施例所提供的方法结合使用。
关联信息管理单元120,用于根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
本发明方案,是基于对大量文档的分析和统计,为词条增加关联度。也就是说,对于词条A和词条B,如果这两个词条同时出现在一篇文档中,则在词条集合中,对“词条A和词条B的关联度”增加一个单位的关联度。
可以理解的是,在对文档进行分析的过程中,需要进行必要的分词处理,以便提取出整篇文档中所包含的词条。
根据本发明的一种具体实现方式,对于预先建立的图,假设按照默认的初始化方式,图的初始边集合为空(即任意两点间的边权重为0),对于任意的两个点A和B,如果对应的词条同时出现在文档X中,则在这两个点之间增加一条边,如果对应的词条又同时出现在文档Y中,则增加已有边的权重……如此反复,通过分析大量的已有文本,逐步增加边的数量与权重。最终得到一张词条关系网络图。
为了更好地体现“共现”对于推荐的意义,在本发明的一种具体实施方式中,可以进一步根据词条的TF-IDF来增加词条之间的关联度。根据TF-IDF的作用,本发明所提供的一种具体实施方式是:
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度。
根据上述实施方式,假设在给定文档X中,发现10个词条属于预置的词条集合,那么可以对这10个词条按照TF-IDF进行排序,选取其中排名较高的前n个词条,对于这些选取词条,在所述词条集合中,增加对应元素之间的关联度,其中n为预设值,可以理解的是,一般情况下,n应不小于2。在n大于2的情况下,则需要对这n个词中的任意两个词之间进行关联度增加处理。
当然,也可以预先设置一个TF-IDF阈值,然后仅选取高于该阈值的词条,在所述词条集合中,增加对应元素之间的关联度。
上述方案中,由于引入了TF-IDF,因此可以使得选择出的词条是都是比较能够反映当前文档主题的文档,以此作为后续的推荐依据,也可以有效减少对一些常见词的无意义推荐。
在本发明的一种具体实施方式中,可以进一步根据词条在文档中的出现距离来增加词条之间的关联度。实现方案如下:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
根据研究发现,对于词条A和词条B,如果二者在文档中的出现距离较近,则这两个词条的关系会倾向于比较密切,相反,如果二者在文档中的出现距离较近,则这两个词条的关系会倾向于比较疏远,例如,在一篇文章同一个段落出现的两个词条,其存在实际关联的概率就会高于在不同段落出现的两个词条。
在具体实施过程中“位置关系满足预设要求”,可以是相对的关系,例如要求两个词条必须同时出现在一篇相同段落中;也可以是绝对的关系,例如要求两个词条的位置距离必须小于一定的阈值。
上述方案中,由于引入了词条位置,因此可以使得所确定的词条相关性更为严格,避免建立一些缺少实际意义的关联关系。
可以理解的是,本发明可以仅根据词条在文档中的共现关系增加词条间的关联度而不考虑其他的优化方式。并且上述两种优化方式仅作示意性说明。在实际应用中,两种方案既可以独立使用,也可以结合使用。当然,在不脱离本发明的基本思想的前提下,本领域技术人员也可以采用其他的优化方式,并且这些方法既可以独立使用,也可以与本发明实施例所提供的方法结合使用。
建立词条的关联信息之后,就可以根据已建立的关系进行词条推荐。假设对于词条A,直接关联词条包括B1、B2;
B1的直接关联词条,除A外,还包括C1、C2;
B2的直接关联词条,除A外,还包括C3、C4。
根据以上关系可知,对于词条A,直接关联词条包括B1、B2,直接关联的词条与A关联距离为1,也可以称为一级关联,间接关联词条包括C1、C2、C3、C4,这四个词条与A关联距离为2,也可以称为二级关联。当然,间接关联还可能包括三级关联、四级关联……,在本实施例中并未列出,而且考虑到在实际情况中,如果词条间的关联距离过大,其实际的关联度已经很小,一般不足以构成推荐的依据。因此一般情况下,可以选择当前词条的两级的关联词条构成推荐候选,当然这并不应该理解为对本发明的限制。在本实施例中,B1、B2、C1、C2、C3、C4构成了A的推荐候选集合,可以根据该集合生成词条A的推荐结果。
根据本发明的一种实施方式,在推荐过程中,可以优先选取直接关联的词条构成推荐结果,例如本实施例中的B1、B2;如果推荐结果数量不足,则可以依次优先选取二级关联词条、三级关联词条对推荐结果进行补充。
在本发明的一种优选实施方式中,对于与词条A关联距离相同的多个词条,可以引入“关联度”作为选取推荐结果的原则:
如果有多个词条和当前词条直接关联,那么优先选取其中与A的关联度较大的词条构成推荐结果。例如:
B1与A的关联度为90;
B2与A的关联度为10;
则在B1和B2之间,优先选择和A关联度较大的B1进行推荐。
如果有多个词条与词条A间接关联,那么优先选取路径关联度乘积较大的词条构成推荐结果。例如:
A与B1的关联度为10;
B1与C1的关联度为10;
B1与C2的关联度为15;
那么,C1与A的路径关联度乘积为10*10=100,C2与A的路径关联度乘积为10*15=150,应优先选取C2进行推荐。
在本发明的优选实施方式中,还可以对“路径关联度乘积”进行优化,例如:
对于与A关联距离较近的词条,在乘积过程中给予较大的权重,例如对于上述的A、B1、B2、C1、C2、C3、C4,在乘积过程中,对于A-B1、A-B2之间的关联度给予较大的权重,对于B1-C1、B1-C2、B2-C3、B2-C4之间的关联度给予较小的权重,其中,权重可以用线性系数的形式区分,也可以用指数的形式区分,本发明对此并不需要进行限定。
对于任一个词条,如果存在多个下一级别的直接关联词条,则首先对关联度进行归一化,再统一进行乘积处理。例如:
A与B1的关联度为10;
A与B2的关联度为90;
B1与C1的关联度为100;
B1与C2的关联度为900;
B2与C3的关联度为10;
B2与C4的关联度为90;
则进行归一化后的结果为:
A与B1的关联度为0.1;
A与B2的关联度为0.9;
B1与C1的关联度为0.1;
B1与C2的关联度为0.9;
B2与C3的关联度为0.1;
B2与C4的关联度为0.9。
最终得到的路径关联度乘积分别为:
A-B1-C1:0.1*0.1=0.01;
A-B1-C2:0.1*0.9=0.09;
A-B2-C3:0.9*0.1=0.09;
A-B2-C4:0.9*0.9=0.81;
可见,在C1-C4中,应该优先推荐C4。
应用上述技术方案,基于词条在各种文档中共同出现的程度,建立词条之间关联信息。对于任意两个词条,在文档中共现的频率越高,说明这两个词条的关联度越强,通过对大量文档的分析,可以建立完整的词条关联网络,当用户浏览到网络中的某个词条时,就可以根据该词条的在网络中的相邻节点生成推荐结果。
与现有技术相比,应用本发明所提供的技术方案,不需要人工对新发布文档进行预处理,从而有效地节省了人力成本。此外,与现有的基于用户行为建立词条关联信息的实现方式相比,本发明方案通过对客观存在的文本进行分析、根据词条共现关系建立关联信息,能够有效减少用户行为的主观性对推荐结果的影响,从而进一步提升推荐系统的性能。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种词条推荐方法,其特征在于,该方法包括:
对预置词条集合中的元素关联信息进行初始化;
根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
获得词条A之后,利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果。
2.根据权利要求1所述的方法,其特征在于,所述根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
3.根据权利要求1所述的方法,其特征在于,所述根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度,包括:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
4.根据权利要求1所述的方法,其特征在于,所述利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果,包括:
根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成推荐结果。
5.根据权利要求4所述的方法,其特征在于,该方法还包括:
在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
6.根据权利要求5所述的方法,其特征在于,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词条构成推荐结果。
7.根据权利要求5所述的方法,其特征在于,所述根据关联词条与词条A的关联度大小确定推荐结果,包括:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积较大的词条构成推荐结果。
8.一种词条推荐装置,其特征在于,该装置包括:
关联信息初始化单元,用于对预置词条集合中的元素关联信息进行初始化;
关联信息管理单元,用于根据词条在文档中的共现关系,在所述词条集合中,增加对应元素之间的关联度;
推荐单元,用于在获得词条A之后,利用词条A在所述词条集合中的关联词条,构成词条A的推荐结果。
9.根据权利要求8所述的装置,其特征在于,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的TF-IDF值;
确定TF-IDF值满足预设要求的至少两个词条,在所述词条集合中,增加对应元素之间的关联度;
其中,所述TF-IDF为:词频-逆文档频率。
10.根据权利要求8所述的装置,其特征在于,所述关联信息管理单元,具体用于:
对于给定文档,统计集合中元素在该文档中的出现位置;
如果两个词条在文档中的位置关系满足预设要求,则在所述词条集合中,增加对应元素之间的关联度。
11.根据权利要求8所述的装置,其特征在于,所述推荐单元,具体用于:
根据关联词条与词条A的关联距离,优先选取关联距离较小的关联词条构成推荐结果。
12.根据权利要求11所述的装置,其特征在于,所述推荐单元,还用于:
在多个关联词条与词条A的关联距离相同的情况下,根据关联词条与词条A的关联度大小确定推荐结果。
13.根据权利要求12所述的装置,其特征在于,所述推荐单元,具体用于:
在多个关联词条与词条A直接关联的情况下,优先选取关联度较大的词条构成推荐结果。
14.根据权利要求12所述的装置,其特征在于,所述推荐单元,具体用于:
在多个关联词条与词条A间接关联的情况下,优先选取路径关联度乘积较大的词条构成推荐结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102723913A CN102831185A (zh) | 2012-08-01 | 2012-08-01 | 一种词条推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102723913A CN102831185A (zh) | 2012-08-01 | 2012-08-01 | 一种词条推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102831185A true CN102831185A (zh) | 2012-12-19 |
Family
ID=47334322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102723913A Pending CN102831185A (zh) | 2012-08-01 | 2012-08-01 | 一种词条推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831185A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258045A (zh) * | 2013-05-24 | 2013-08-21 | 百度在线网络技术(北京)有限公司 | 推荐内容确定系统和方法 |
CN104899241A (zh) * | 2014-03-07 | 2015-09-09 | 歌乐株式会社 | 关联数据生成装置和关联数据生成方法 |
CN105677633A (zh) * | 2014-11-21 | 2016-06-15 | 科大讯飞股份有限公司 | 词语联想方法及装置 |
CN106663100A (zh) * | 2014-05-30 | 2017-05-10 | 苹果公司 | 多域查询补全 |
CN107643835A (zh) * | 2017-10-19 | 2018-01-30 | 北京京东尚科信息技术有限公司 | 下拉词确定方法、装置、电子设备及存储介质 |
CN108038220A (zh) * | 2017-12-22 | 2018-05-15 | 新奥(中国)燃气投资有限公司 | 一种关键词展示方法和装置 |
CN110276009A (zh) * | 2019-06-20 | 2019-09-24 | 北京百度网讯科技有限公司 | 一种联想词的推荐方法、装置、电子设备及存储介质 |
CN111180024A (zh) * | 2019-12-13 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 基于词频逆文档频率的数据处理方法、装置和计算机设备 |
CN116680390A (zh) * | 2023-08-01 | 2023-09-01 | 京华信息科技股份有限公司 | 一种词汇联想推荐方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295319A (zh) * | 2008-06-24 | 2008-10-29 | 北京搜狗科技发展有限公司 | 一种扩展查询的方法、装置及搜索引擎系统 |
US20090094020A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Recommending Terms To Specify Ontology Space |
CN101520785A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 信息检索方法和系统 |
-
2012
- 2012-08-01 CN CN2012102723913A patent/CN102831185A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094020A1 (en) * | 2007-10-05 | 2009-04-09 | Fujitsu Limited | Recommending Terms To Specify Ontology Space |
CN101520785A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 信息检索方法和系统 |
CN101295319A (zh) * | 2008-06-24 | 2008-10-29 | 北京搜狗科技发展有限公司 | 一种扩展查询的方法、装置及搜索引擎系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258045B (zh) * | 2013-05-24 | 2016-12-28 | 百度在线网络技术(北京)有限公司 | 推荐内容确定系统和方法 |
CN103258045A (zh) * | 2013-05-24 | 2013-08-21 | 百度在线网络技术(北京)有限公司 | 推荐内容确定系统和方法 |
CN104899241A (zh) * | 2014-03-07 | 2015-09-09 | 歌乐株式会社 | 关联数据生成装置和关联数据生成方法 |
US10157348B2 (en) | 2014-03-07 | 2018-12-18 | Clarion Co., Ltd. | Related data generating apparatus, related data generating method, and program |
CN106663100B (zh) * | 2014-05-30 | 2021-01-12 | 苹果公司 | 多域查询补全 |
CN106663100A (zh) * | 2014-05-30 | 2017-05-10 | 苹果公司 | 多域查询补全 |
CN105677633A (zh) * | 2014-11-21 | 2016-06-15 | 科大讯飞股份有限公司 | 词语联想方法及装置 |
CN107643835A (zh) * | 2017-10-19 | 2018-01-30 | 北京京东尚科信息技术有限公司 | 下拉词确定方法、装置、电子设备及存储介质 |
CN108038220A (zh) * | 2017-12-22 | 2018-05-15 | 新奥(中国)燃气投资有限公司 | 一种关键词展示方法和装置 |
CN110276009A (zh) * | 2019-06-20 | 2019-09-24 | 北京百度网讯科技有限公司 | 一种联想词的推荐方法、装置、电子设备及存储介质 |
CN110276009B (zh) * | 2019-06-20 | 2021-09-24 | 北京百度网讯科技有限公司 | 一种联想词的推荐方法、装置、电子设备及存储介质 |
CN111180024A (zh) * | 2019-12-13 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 基于词频逆文档频率的数据处理方法、装置和计算机设备 |
CN116680390A (zh) * | 2023-08-01 | 2023-09-01 | 京华信息科技股份有限公司 | 一种词汇联想推荐方法及系统 |
CN116680390B (zh) * | 2023-08-01 | 2023-12-05 | 京华信息科技股份有限公司 | 一种词汇联想推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831185A (zh) | 一种词条推荐方法及装置 | |
Ding et al. | Learning topical translation model for microblog hashtag suggestion | |
Jäschke et al. | Tag recommendations in folksonomies | |
US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
CN101364239B (zh) | 一种分类目录自动构建方法及相关系统 | |
US9268843B2 (en) | Personalization engine for building a user profile | |
US7529735B2 (en) | Method and system for mining information based on relationships | |
JP5368100B2 (ja) | 概念ベースの検索および解析のためのシステム、方法、およびコンピュータプログラム製品 | |
CN104252456B (zh) | 一种权重估计方法、装置及系统 | |
US20120278341A1 (en) | Document analysis and association system and method | |
US20130157234A1 (en) | Storyline visualization | |
Ianina et al. | Multi-objective topic modeling for exploratory search in tech news | |
US20120303637A1 (en) | Automatic wod-cloud generation | |
CN102855282A (zh) | 一种文档推荐方法及装置 | |
Yi | A semantic similarity approach to predicting Library of Congress subject headings for social tags | |
Krestel et al. | Diversifying customer review rankings | |
Zhang et al. | Recommendation over a heterogeneous social network | |
Gamon et al. | Understanding document aboutness-step one: Identifying salient entities | |
Benkoussas et al. | Book Recommendation Using Information Retrieval Methods and Graph Analysis. | |
US8195458B2 (en) | Open class noun classification | |
Rajkumar et al. | Users’ click and bookmark based personalization using modified agglomerative clustering for web search engine | |
KR101180371B1 (ko) | 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템 | |
Kumar et al. | Social book search: reranking based on document and query expansion with keyword filtering | |
Zhang et al. | A semantics-based method for clustering of Chinese web search results | |
Veningston et al. | Semantic association ranking schemes for information retrieval applications using term association graph representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20121219 |