CN103942302B

CN103942302B - 一种相关反馈间关系网络的构建与应用方法

Info

Publication number: CN103942302B
Application number: CN201410153662.2A
Authority: CN
Inventors: 洪宇; 康杨杨; 朱巧明; 王剑
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2017-04-19
Anticipated expiration: 2034-04-16
Also published as: CN103942302A

Abstract

本发明提供一种相关反馈间关系网络的构建与应用方法，包括以下步骤。S1、根据用户的查询点击行为，分析用户在认知理解过程中信息的个性化逻辑序列关系，即用户逻辑关系。S2、度量用户点击脉络的方向一致性，利用基于语言模型的向量聚类法将具有同一方向的脉络聚为一类，形成黑洞形态的用户逻辑群。S3、根据所述黑洞，进行用户检索系统中的用户查询推荐以及检索结果排序推荐。

Description

一种相关反馈间关系网络的构建与应用方法

技术领域

本发明属于信息检索领域，具体涉及一种个性化信息检索过程中相关反馈间关系网络的构建与应用方法。

背景技术

搜索引擎是指根据一定的策略自动从互联网上抓取资源，对信息进行组织和处理后，提供给人们进行在线查询的服务系统。它将用户从海量丰富的信息中解放出来，帮助用户快速、准确、便捷地获取有价值的信息，极大了提升了人们的工作效率。

搜索引擎从诞生到现在，经历了四个发展过程。第一代搜索引擎主要是基于人工来编辑分类目录，代表的站点有hao123等导航网站，或者新浪、搜狐等门户网站。第二代搜索引擎采用了一些简单的信息检索模型，如布尔模型、概率模型或者向量空间模型等，根据用户输入的查询，返回相关性高的信息。这种模式的搜索引擎体已经是现代搜索引擎的雏形，代表有Alta Vista。第三代搜索引擎主要采用链接技术算法，不但要考虑搜索结果与用户查询的相似程度，同时要考虑该网页的质量及重要程度。此类搜索引擎以谷歌和百度为代表。第四代搜索引擎，主要以用户为核心，根据用户发起查询请求时的环境（时间、场景）以及用户背景之间的差异，返回满足不同检索意图的结果，即个性化搜索。目前，个性化搜索的研究及应用还处在起步阶段，尤其是移动互联网兴起之后，衍生出大量的移动场景下的多元化的个性化搜索需求，亟需一种更有效的个性化搜索策略。

而传统的信息检索在度量查询与伪反馈相关性的过程中，主要侧重衡量文字层面的语义或语用一致性，并将这一关系应用于检索性能的提高，尤其是个性化信息检索方法，通过用户行为收集相关于查询的用户意图描述信息，并在此基础上对查询和排序进行修正或革新，提高满足用户查询意图的信息支持力。然而，这类方法在检测和应用诸如“下馆子”和“KTV飚歌”这类本源无关、语言重叠性稀疏、语义一致性低下的信息关系时，却显得无能为力。

鉴于此，本发明提供一种相关反馈间关系网络的构建与应用方法，以解决上述问题。

发明内容

本发明提供一种相关反馈间关系网络的构建与应用方法，包括以下步骤：

S1、根据用户的查询点击行为，分析用户在认知理解过程中信息的个性化逻辑序列关系，即用户逻辑关系；

S2、度量用户点击脉络的方向一致性，利用基于语言模型的向量聚类法将具有同一方向的脉络聚为一类，形成黑洞形态的用户逻辑群；

S3、根据所述黑洞，进行用户检索系统中的用户查询推荐以及检索结果排序推荐。

优选的，在步骤S1中，所述用户的查询点击行为，指用户点击查看的检索结果、对应的详情页面以及所述点击行为之间的时序关系，所述用户的点击结果即相关反馈。

优选的，步骤S2中黑洞形态的用户逻辑群中，所述黑洞为：若任一查询均存在一个终极目标和多个起点，每个起点至终极目标的过程存在至少一次点击，则黑洞的中心为终极目标，黑洞的半径为终极目标与距离所述终极目标最远的起点之间的距离，且每个起点和黑洞中心之间的系列点击称为一个吸引路径。

优选的，在步骤S2中，所述黑洞形态的用户逻辑群的形成过程为：将每个点击脉络作为一个聚类，并将其描述为点击方向的序列向量，即点击向量；借助语言模型计算每一对聚类的相似度，采用自底向上的凝聚式划分方法，将近似度最高的一对聚类合并为一类，并度量新类中每个点击向量中每个方向的生成概率，辅助后续聚类时的相似度计算；持续向上聚类，直到所有聚类汇聚于一点，或所有聚类的相似度都低于某一阈值。

优选的，在步骤S3中，所述检索结果排序推荐包括全路径推荐和局部路径推荐，所述局部路径推荐又包括集中式局部推荐和散点式局部推荐。

优选的，所述全路径推荐是将黑洞中特定路径上所有点击对应的相关反馈全部予以推荐，高位排列并按照点击顺序进行排序；局部路径推荐是将黑洞中特定路径上局部点击片段对应的相关反馈给予推荐，高位排列并按点击顺序予以排序。

优选的，当被推荐用户使用的查询项与被推荐路径起点对应的查询项具有一致性或近似性时，实施全路径推荐。

优选的，当用户的初始点击序列与黑洞中某一路径的连续点击片段有着高度一致性时，实施集中式局部推荐，且所述集中式局部推荐将一致性片段之后的点击按序整体推荐。

优选的，当两条或多条认知路径之间具有较多相同点击反馈且点击并不连续时，实施散点式局部推荐。

根据本发明提供的相关反馈间关系网络的构建与应用方法，通过检测并分析用户点击行为形成的用户逻辑关系，用以度量用户点击脉络的方向一致性，可以在本源无关、语言重叠性稀疏且语义一致性低下的信息之间建立关联。同时将具有同一方向的脉络聚为一类，形成黑洞形态的用户逻辑群，进行用户检索系统中的用户查询推荐以及检索结果排序推荐，更好的满足个性化的用户意图需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明较佳实施例提供的相关反馈间关系网络的构建与应用方法流程图；

图2是本发明较佳实施例提供的相关反馈奇异关系样例示意图；

图3是本发明较佳实施例提供的点击黑洞形态样例示意图；

图4是本发明较佳实施例提供的点击空间样例示意图；

图5是本发明较佳实施例提供的黑洞形态的映射样例示意图；

图6是本发明较佳实施例提供的点击序列的方向分解样例示意图；

图7是本发明较佳实施例提供的现有检索系统的查询推荐样例示意图；

图8是本发明较佳实施例提供的用户逻辑的复杂度对照样例示意图；

图9是本发明较佳实施例提供的集中式推荐样例示意图；

图10是本发明较佳实施例提供的多路径集中式推荐样例示意图；

图11是本发明较佳实施例提供的散点渐进式推荐样例示意图；

图12是本发明较佳实施例提供的“黑洞”的路径划分样例示意图；

图13是本发明较佳实施例提供的渐进式迭代推荐过程样例示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1是本发明较佳实施例提供的相关反馈间关系网络的构建与应用方法流程图。如图1所示，本发明较佳实施例提供的相关反馈间关系网络的构建与应用方法包括步骤S1～S3。

步骤S1：根据用户的查询点击行为，分析用户在认知理解过程中信息的个性化逻辑序列关系，即用户逻辑关系。

为更好地理解本发明，首先对相关反馈间关系作出说明。现有的相关反馈（包括显式和隐式相关反馈），通常用于对查询的扩展和修正，用户意图与偏好的挖掘，以及排序学习等。然而，现有搜索引擎给予的检索结果列表（即伪相关反馈列表）中，各个结果之间并没有被指定任何联系。值得说明的是，搜索引擎既没有在度量相关性的过程中使用相关反馈间的联系，也没有在展示检索结果的交互界面上呈现这一联系。使得现有的检索结果列表形似“八爪章鱼”，“章鱼头”比拟查询（query），“八只爪子”比拟枚举式的检索结果，各个“爪子”都与“章鱼头”有着某种联系，如文本上的词匹配或更深层的基于语言模型的关联性。但信息之间的联系是一种必然存在的客观规律，比如，特定用户在点击和浏览了第1项检索结果后，又对当前列表中的第3项进行了点击与浏览，那么第1项与第3项（即来自用户的两个相关反馈）之间理应存在某种关系，可以考虑对这一关系进行深入的挖掘和分析。

相关反馈之间的联系包括例如主题一致性关系、属性一致性关系、语义一致性关系和通用的相关性：主题一致性适合面向新闻文本的检索，比如文本“世贸大厦的倒塌”和“恐怖分子劫持飞机撞大楼”都可以归属于“911恐怖袭击事件”这一主题的检索；属性一致性适合面向产品的垂直搜索，比如针对“2400万像素”照相机的检索；语义一致性则较为万能，现有检索领域的分类和聚类都可以借助语义一致性精细划分信息类别，但语义一致性给定的关系过于收敛，不适合搜索引擎中的知识扩展性；相比而言，相关性则过于发散，只要字面的一致性达到特定量级，即可说明信息间存在相关性，比如“观音山”可以和“范冰冰”建立联系。

但上述各关系并不能有效地刻画相关反馈之间的关系，图2是本发明较佳实施例提供的相关反馈奇异关系样例示意图。如图2所示，给定查询“怎么戒烟”，就很难用上述关系解释某一用户在点击伪反馈a)“怎么戒烟7天去烟瘾，21天彻底戒烟”之后又点击b)“如何让老公戒酒”。

通过大量类似上例的样本可以得出：信息检索系统依赖语义或语用层面的一致性、近似性或相关性，挖掘和有序排列了关联于查询的信息。但用户在判定和触发特定检索结果时不一定遵循检索系统的逻辑。换言之，用户对于哪些检索结果更为贴心，以及用户为满足自身知识获取意图而采用的检索结果学习次序，都有着自己独特的一套看法。由此，相关反馈（比如点击行为触发的检索结果）并非一定反映了检索结果与查询之间字面上的关系，而是更多地反映了用户认知和理解检索结果的一种过程。那么，研究相关反馈的关系就是在尝试解释用户认知和理解事物过程中所遵循的逻辑或思维脉络。相应地，相关反馈之间的关系可表示为一种认知理解过程中信息的个性化逻辑序列关系，简称用户逻辑关系。

本发明中，相关反馈间的用户逻辑关系强调的是用户对知识间关联性的独到看法。换言之，这一关系是用户根据自身理解、判断和推理建立起的狭义信息关系，而非一定遵循语言学规律或事物本源联系的广义信息关系。究其主要特征而言，用户逻辑关系首先是一种个性化关系，反映的是用户个例的认知特点。比如，用户张三先认识李四，又认识王五，那么样本序列李四和王五即具备了张三的用户逻辑关系；相对地，用户杨二先认识王五，又认识李四，那么样本序列王五和李四即具备了杨二的用户逻辑关系，在样本李四与王五的认知关系上，用户张三与杨二都有着自己的一套逻辑。其次，用户逻辑关系是一种创造性关系，可以在本身无关的信息间制造关系。比如，样本“下馆子”和“KTV飚歌”之间本无关系，但组织派对的用户经常会在两者之间建立“下了馆子再去KTV飚歌”的关系。最后，用户逻辑关系还是一种强调序的关系，即序列关系。比如，老师教孩子们先认识加法，再认识乘法，最后认识分配律。基于上述特点，用户逻辑关系实质上是一种用户极大便利自身理解事物的知识采集序列。

如上所述，用户的查询点击行为，是指用户点击查看的检索结果、对应的详情页面以及所述点击行为之间的时序关系，所述用户的点击结果即相关反馈。

步骤S2：度量用户点击脉络的方向一致性，利用基于语言模型的向量聚类法将具有同一方向的脉络聚为一类，形成黑洞形态的用户逻辑群。

如步骤S1所述，相关反馈之间可以具备一种用户逻辑关系。接下来介绍如何将用户逻辑关系应用于检索系统。例如认知序列中的样本“李四”与“王五”本可以是毫无关系的两个人，但因为用户“张三”先认识了“李四”后认识了“王五”，那么，相对用户“张三”而言，样本“李四”与“王五”就具备了认知序列的关系。借助大规模统计数据发现，绝大部分用户都是先认识“李四”后认识“王五”，两者之间的联系存在必然性。比如，人们先认识“李登辉”后认识“陈水扁”可以解释为认知的时序关系；人们先认识“日本”后认识“广岛长崎”可以解释为认知的全局与局部联系；人们先认识“貂婵”后认识“自己老婆”可以解释为属性优劣或知名度高低的联系。由此，可以借助大量的检索样本数据建立具有一致或近似认知过程的用户逻辑群，每一个群由多个用户逻辑形成，表述了一种趋向同一认知中心的信息关系。

即便如此，仍然很难用统一标准定义每一个用户逻辑群表述了什么信息关系，关系类别也五花八门。比如上文中的样例，一个群描述时序关系（“李登辉”与“陈水扁”），另一个群描述属性关系（“貂婵”和“老婆”）。其中，时序关系需要时间表达式的识别和比对，属性关系则要依赖本体论（ontology），两者正常的处理和应用过程都有着显著的区别。事实上，如果将这样一种理论投入到针对大规模数据进行处理的信息检索领域，将有着很多回避特定关系定义与识别的处理和应用方式。就这一点而言，传统的HITs算法就是最好的例证，HITs并不专注于任何一个网页内容的分析、定义和使用，而是全局地考虑各个网页之间的链接关系，并借助Authority和Hub值建立一套排序机制。换言之，HITs的所有行为都在网页之外的空间进行，它对网页内在的内容毫不关心。这为本发明的设计提供了很好的借鉴作用。

由此，本发明引入点击黑洞的定义，它是用户逻辑群的另一称谓。用户点击行为是触发相关反馈的主要手段之一，因此，同一查询过程中的系列点击行为可以在实际应用中建立相关反馈的关系，反映用户的认知和学习过程。单一用户提供的系列点击可以建立单一的用户逻辑关系，多用户的点击行为就可以形成用户逻辑群。将基于用户点击行为构建的用户逻辑群称为点击黑洞，不仅仅为了凸显相关反馈的来源为点击行为，更多地是为了反映用户逻辑群的一种形态：黑洞形态。

由此，在黑洞形态的用户逻辑群中，所述黑洞为：若任一查询均存在一个终极目标和多个起点，每个起点至终极目标的过程存在至少一次点击，则黑洞的中心为终极目标，黑洞的半径为终极目标与距离所述终极目标最远的起点之间的距离，且每个起点和黑洞中心之间的系列点击称为一个吸引路径。

本发明中，点击黑洞是基于用户点击行为构建的用户逻辑群的视觉仿真。任何一种查询都存在一个终极目标和多个查询起点，终极目标指的是最能够满足查询意图的信息，起点指的是用户输入的初始查询项，而终极目标和每一个起点之间都有着特定用户在探寻、学习和理解知识过程中的系列信息触发行为（即点击行为），每一个行为指向一个反映用户认知状态的相关反馈。简而言之，点击黑洞就是具有同一知识获取意图的不同用户，使用不同初始查询项，通过系列点击行为提供的认知趋势趋向一致的相关反馈逻辑群。

事实上，点击黑洞的中心是不存在的，即最满足用户查询意图的信息并不存在。点击黑洞只能记录趋向于终极目标的系列认知趋势，而不能给出终极目标，也恰恰迎合了黑洞的性质。此外，由于不同用户可以存在同一查询意图，而其知识背景、语言能力、交流习惯等却往往各不相同，因此，不同用户的查询语言往往不同，其正确性和精确性也不同，因此呈现多起点现象（具有相同起点的则归为一类用户）。其中，无论从语言使用和搭配的正确性上、或语义的精确性上，必定存在距离“点击黑洞”中心最远的查询项。由此，黑洞的边界即是由这一距离最远的查询项所构建的等距圆弧（如果在三维空间，则为球面，更高维空间则为超球面）。

图3是本发明较佳实施例提供的点击黑洞形态样例示意图。如图3所示，在点击黑洞中，任意一条由起点至终点间的路径（Path）记录了特定用户同一次查询中的不同点击（如图3中的实心圆点），每一个点击指向一项相关反馈，整个路径反应了特定用户的认知脉络，即对应用户的用户逻辑。其中，每条路径上的最终点并不是终极目标，仅仅是系列点击行为中的最后一次点击，指向检索过程中的最后一项相关反馈，具有趋向终极目标的属性。

于此，所述黑洞形态具备如下性质：黑洞中的起点不能超出黑洞边界；黑洞中的用户逻辑路径并不一定全部局限于黑洞边界之内；黑洞中的每个用户逻辑路径都趋向同一终极目标，但始终达不到这一目标。其中，“黑洞中的用户逻辑路径并不一定全部局限于黑洞边界之内”这一性质对用户逻辑路径的限制较松，只强调其整体趋势趋向黑洞中心，这可以解释为用户在认知过程中的错误和干扰。

由此，利用大规模检索数据集合，可以构建一种完全由用户点击行为构成的点击空间，其中包含各种不同用户的系列点击脉络，并根据用户逻辑的目标一致性或近似性，形成不同点击黑洞。图4是本发明较佳实施例提供的点击空间样例示意图。如图4所示，最小的点击黑洞k是由单一用户的点击路径构成的用户逻辑。

下面将介绍点击黑洞的构建方法。点击黑洞的基本组成包含一个未知的中心,多个离散的起点(即查询项)和系列点击形成的用户逻辑脉络。由于无法准确获取和描述查询的终极目标，黑洞的机器自动构建将非常困难。为此，本发明采用同向法建立黑洞，同向法只考虑系列点击的趋势具有近似一致的方向性，而忽略黑洞中心以及起点的位置。其基本思想如下，假设存在一种方向，其终点存在一个“黑洞”中心，那么所有具有这一方向的点击脉络将指向这一中心，又因不同的点击脉络往往源自不同的起点，每个起点至黑洞的方向各不相同，那么由各个起点开始的点击脉络将形成多角度的内聚性，即黑洞。上述黑洞的构建可以借助两种空间予以解释，一种是语义空间，该空间记录信息的语义位置。另一种是点击空间，该空间中仅仅记录点击序列的方向。

语义空间的一般形成方法是将所有已知的字、词或短语分别建立特定的维度（语言的高维空间），使得任何文本都可以在这一高维空间中定位特定位置。借助传统的向量空间模型法（VSM）可以度量空间中任意两点（即两个文本信息）之间的近似度，借以描述文本间的语义相关性。然而，语义无关的文本之间也可以存在用户逻辑关系，比如“下馆子吃大餐”和“去KTV通宵飚歌”之间毫无语义联系，但对“准备组团彻夜狂欢的青年男女”而言，两者之间有着密不可分的联系，而这一联系借助上述语义空间很难予以解释和度量。另外，VSM这一模型在度量空间中所有两点关系时，完全相对于同一中心，即空间的原点，这从理论上存在难以解释的疑问，即如果空间的中心描述了一种所有维度上的语言现象皆为零的情况，那么相对于这一中心的所有两点匹配表达了什么含义呢？是否表明了人们对任意两点关系匹配的认知完全在毫无先验知识和语言逻辑关系理解的层面下进行呢？即仅仅是字面关系，毫无认知理解的逻辑关系。由此，现有方法在利用语义空间方面尚不透彻。

本发明即旨在建立语义空间中的多种核心，语言的匹配和理解也相对于不同核心予以进行，无论是方向性或距离性，都不能仅仅相对于同一起点。然而，在语义空间中检测这种新的核心（即黑洞中心）很难直接解决。因此，本发明借助另一种点击空间，辅助黑洞中心的检测。点击空间仅仅考虑系列点击的方向性，而不考虑点击对应的信息内容。点击脉络具有“序”的属性，即系列点击的序列，方向趋近一致的点击脉络称为平行点击序列，趋向同一认知目标。如果这类点击序列的确存在，那么，将这类序列映射至语义空间中时，将形成收敛于某一中心的黑洞。图5是本发明较佳实施例提供的黑洞形态的映射样例示意图。如图5所示，点击序列{a,b}、{c,d}和{e,f}具有平行关系，趋向同一目标，将其映射至语义空间中时，尽管点击对应的文本内容在空间中的位置无法继续保证上述平行关系，但所有点击序列趋向同一核心的性质将隐含地继续保存，如图5中由不同起点开始，点击脉络趋向内聚的图示。

如上所述，黑洞建立的核心问题是如何度量点击脉络的方向一致性，并将具有同一方向的脉络聚为一类。由此，所述黑洞形态的用户逻辑群的形成过程为：将每个点击脉络作为一个聚类，并将其描述为点击方向的序列向量，即点击向量；借助语言模型计算每一对聚类的相似度，采用自底向上的凝聚式划分方法，将近似度最高的一对聚类合并为一类，并度量新类中每个点击向量中每个方向的生成概率，辅助后续聚类时的相似度计算；持续向上聚类，直到所有聚类汇聚于一点，或所有聚类的相似度都低于某一阈值。

图6是本发明较佳实施例提供的点击序列的方向分解样例示意图。如图6所示，给定一条点击脉络{a,b,c}，首先将这一序列分解并形成点击向量{（a,b）、（b,c）、（a,c）}，这一向量记录了点击序列中每一种自前而后的点击方向。其中方向（a,c）不是直接方向，而是具有中间媒介的间接方向。

本实施例中，基于语言模型的相似度度量方法如下所示。假设给定如下两个聚类：

其中，每一对符号{}对应一种点击向量，每一对符号[]对应一个点击向量的聚类（即认知脉络的聚类）。首先，计算两者的生成概率P(C1|C2)和P(C2|C1)，然后，利用KL距离（Kullback-Leibler divergence）度量C1和C2的调和近似度。P(C1|C2)和P(C2|C1)可采用公式进行计算。P(Dp|Cj)表示Ci中的某一方向Dp在聚类Cj中的生成概率，其计算公式为：

P(Dp|Dq)表示Cj中Dp和Dq共现的概率，其计算公式为：其中，分子部分表示聚类中同时包含方向p与q的点击向量的数量，分母部分表示聚类中包含方向q的点击向量的数量。比如，针对上述聚类的例子C1和C2,面向P(D2|C1)的计算，需要度量C1中所有方向与D2的共现概率P(D2|Di)，i。其中，P(D2|D1)的概率为2\3，因为其中同时包含方向D1和D2的点击向量数为2，而包含方向D1的点击向量总数为3。

步骤S3：根据所述黑洞，进行用户检索系统中的用户查询推荐以及检索结果排序推荐。

现有的检索系统已给出了查询推荐的应用，但是，这一推荐主要依赖查询项中词或字的重复度或近似度，而无法实现词义相同但用语不同，甚或意图相同但用语不同情况下的查询推荐。图7是本发明较佳实施例提供的现有检索系统的查询推荐样例示意图。如图7所示，用户输入查询项“苏州美食”，检索框中给出的查询推荐项基本无法跳出用户输入的范畴，如“苏州美食网”、“苏州美食团购网”等。显然，脱离用户的原始输入，并不是不存在更好的查询，比如，针对上例，查询“苏帮菜”也是不错的推荐项。

本发明所述的点击黑洞也可以应用于查询推荐。具体地，点击黑洞记录了趋向同一查询目标的大量用户逻辑，每一条用户逻辑都以查询为起点，集中于同一黑洞内的起点即具有同一目标的查询项，可以实现相互推荐。此处，由于各个起点为用户手工输入，并不被限制在语用一致性的框架内，因此，借助黑洞中各个起点的查询推荐更为灵活，不必一定依赖查询语言的收敛性。由于黑洞记录了不同用户的思维逻辑和学习脉络，从起点到黑洞中心（检索的终极目标）之间的路径有着系列点击，反映了不同背景不同思维方式的用户达到认知目标的不同过程，其中，路径的长短能够反映认知过程的优劣。因此，在忽略特定用户自身认知特点的情况下（理想情况），最短路径的起点对应的查询项可以作为一种最优查询予以推荐。

路径的长短并非唯一检测最优查询项的特征，路径的粗细（粗的路径表示沿着这一路径进行认知的用户数量级更高，细的路径则代表比较片面或怪异的认知脉络）也是判定最优查询项的有效特征。此外，考虑用户实际认知能力的差异，短路径往往反应认知能力强的用户，长路径则反应认知能力差，那么，直接推荐短路径起点的查询项并不一定适用所有用户群。比如，对于不了解加法和乘法的用户直接推荐分配率，其理解过程反而受限。考虑上述原因，利用黑洞实现查询推荐仍需考虑诸多因素，最终形成查询项排序列表的形式予以推荐。

如上所述，点击黑洞记录了不同用户追寻目标结果的系列逻辑脉络。其中，不同用户具有不同的知识积淀、认知角度和理解能力，由此不同认知逻辑脉络有优劣之分。这类脉络应当可以相互推荐（即推荐优质快捷的认知脉络），而黑洞中每一条路径都包含了系列点击行为给予的相关反馈，由此，优质路径涉及的相关反馈将成为重要推荐资源，且根据相关反馈在认知过程中的重要程度，形成序列形式予以推荐，即检索结果的排序推荐。

本发明提供的检索结果排序推荐包括全路径推荐和局部路径推荐。

具体地，所述全路径推荐是将黑洞中特定路径上所有点击对应的相关反馈全部予以推荐，高位排列并按照点击顺序进行排序；局部路径推荐是将黑洞中特定路径上局部点击片段对应的相关反馈给予推荐，高位排列并按点击顺序予以排序。

其中，当被推荐用户使用的查询项与被推荐路径起点对应的查询项具有一致性或近似性时，实施全路径推荐。于此，查询项的匹配是全路径推荐的关键问题，查询一致性或近似性的判定需要借助查询本身的语言信息。但是，查询本身信息量稀疏且往往具有歧义，不适合直接进行一致性或近似性度量。此外，单纯考虑字面上的一致性，而不考虑用户认知能力的一致性，并不能恰当地推荐认知路径。举例而言，用户A对数学的知识背景仅仅是加法，用户B对数学的知识背景包括加法和乘法，那么用户B探寻和理解分配律的过程要比用户A简单得多，至少省去了加法的学习和理解过程。即使用户A与B有着一致的认知目标（什么是分配率），将黑洞中用户B的认知路径推荐给A也将不甚合理，因为B的路径中不包含加法的解释，A也无法实现超常的跨越式理解，换言之，A无法理解B的逻辑。因此，全路径推荐中，查询项的描述与匹配必需同时考虑语言层面和认知层面的一致性。

利用黑洞形态可以建立一种结合语言信息和认知信息的查询一致性判定模型，其核心是将黑洞中认知复杂度一致的查询归为一类。给定待测查询时，首先在黑洞中检测与其最为近似的一类查询，然后在该类中抽取特定认知路径予以推荐。具体地，对于黑洞中的特定起点（对应一个已知查询），利用该起点所在路径上的点击数量计算复杂度（点击数量越多复杂度越高）。如果特定起点引起了多个路径，还需权衡各个路径的点击数量，得到平均复杂度。在此基础上，衡量黑洞中不同起点的复杂度，设置复杂度的量级边界，将同一量级的查询归为一类，从而形成基于用户认知能力的查询划分。这一划分的关键作用在于：复杂度较高的类别反映了用户的认知起点较低，换言之，使用这类起点（查询项）的用户在对目标的先验知识积淀上往往不足，无法有效构建贴近认知目标的查询描述，相对地，复杂度较低的类别反映了认知起点较高，换言之，使用这类起点的用户往往对认知目标有着一定程度的知识积累，能够恰当地选择语言塑造有效的查询。

图8是本发明较佳实施例提供的用户逻辑的复杂度对照样例示意图。如图8所示，起点i所在路径的点击数量较多，复杂性较高，而起点j所在路径的点击数量较少，复杂性较低，由此，起点i对应的查询较低劣，起点j对应的查询较优良，同时，起点i背后的用户欠缺先验知识，起点j背后的用户则有着更多的领域知识或经验。

当基于认知能力划分黑洞中的查询类别后，推荐过程可利用最优近邻法（KNN）检测语言层面最近似于待测查询的类别，并将这一类别中路径最短且路径终点最贴近黑洞中心的认知脉络予以推荐（即将路径上系列点击对应的相关反馈按点击次序排序，实施整体推荐）。此外，针对查询文字信息稀疏的问题，可以使用路径上最贴近起点（即查询项）的点击反馈实施查询扩展。之所以不选择路径上所有点击反馈实施扩展，不仅因为过多的信息将引入大量噪声，泛化语言特点，更主要的原因在于：每一条路径都真实描述了用户认知的逻辑过程，这一过程中，每一次新的点击都将以前一次点击获得的知识和理解为积淀，形成思维的承接性和递进性。由此，最贴近起点的点击，其对应的相关反馈在内容上更为贴近查询的含义，反映用户初始的认知层次，从而使得基于这一反馈的查询扩展更有针对性，且不脱离用户的初始知识水平。利用这一扩展得到的查询描述，可以保证查询匹配不受用户深层学习获得的信息干扰，纯粹地以初始认知水平检测近似查询，从而保证认知脉络推荐的准确性与合理性。

局部路径推荐可以作为全局路径推荐的修正方法，也可以作为独立的推荐方法。就前者而言，全局路径推荐的起点匹配一旦出现偏差，后续点击的推荐将误导用户认知，但通过对用户点击的学习，可以在局部范围内修正起点匹配偏差导致的错误认知路线。就独立推荐而言，可以借助对用户初始点击的学习，探测用户的思维逻辑路线，借以检测黑洞中最符合这一逻辑的路径并予以推荐。因此，无论是作为全局推荐的后续修正方法，或是作为独立推荐方法，局部推荐都需要预先学习用户的初始点击，实现局部的认知一致性判定。

其中，局部路径推荐又包括集中式局部推荐和散点式局部推荐。当用户的初始点击序列与黑洞中某一路径的连续点击片段有着高度一致性时，实施集中式局部推荐，且所述集中式局部推荐将一致性片段之后的点击按序整体推荐。

图9是本发明较佳实施例提供的集中式推荐样例示意图。如图9所示的重复路径片段，当实施集中式局部推荐的条件满足时，集中式推荐将一致性片段之后的点击按序整体推荐。此处，不将一致性片段之前的系列点击予以推荐的原因在于：黑洞路径自起点至终点反应了用户认知逻辑由稚嫩至成熟的过程，其中每一次点击对应的用户学习，将为下一次点击反馈的选择和取舍提供新的知识积累，由此，路径记录了用户在学习和理解相关反馈过程中不同阶段的认知水平，形成渐进式的认知过程。一致性路径片段的后端符合了这一认知特点，能够沿着用户的学习路线和认知思路进行相关反馈的推荐，而一致性片段的前端则往往不会继续成为用户探索和推敲的重点。也因此，一致性片段在路径中的深度（所在位置靠近起点或终点）将成为重要的推荐路径选择条件。这一条件面向“黑洞”中多个已知路径都与待测用户的前期点击脉络具有一致性片段的情况。

图10是本发明较佳实施例提供的多路径集中式推荐样例示意图。如图10所示，用户的前期点击（起点j所在路径）与黑洞中已知路径i和k都有着路径一致的部分，推荐哪一路径更为合理呢？根据上述分析，“黑洞”路径中的片段深度越大，一方面距离终极目标越近，用户的认知水平也比较深入。因此，以深度较大片段的路径为准，选择该片段之后的已知点击予以推荐更为合理，比如，选择图10中路径i中一致片段后的系列点击反馈予以推荐。此外，点击片段一致性的强度也是选择推荐路径的标准，强度指的是一致或近似点击的数量，数量越多一致性越强，显然一致性较强的片段所在的路径更适合推荐。因此，综合考虑一致性强度和深度形成统一的推荐路径选择机制，是集中式推荐的关键问题。

对于散点式局部推荐而言，当两条或多条认知路径之间具有较多相同点击反馈且点击并不连续时，实施散点式局部推荐。

具体而言，散点式渐进性推荐的目的是：在认知过程极为近似的情况下，实现用户认知逻辑的优化。认知过程的散点式近似性指的是两条或多条认知路径之间，具有较多相同点击反馈且点击并不连续。从图形上，这一近似性体现为两条或多条相互纠缠的认知路径。图11是本发明较佳实施例提供的散点渐进式推荐样例示意图，如图11所示，两条认知逻辑路径相互交织，部分离散的点击具有一致性（即不同用户在认知过程中时不时地点击相同的反馈进行学习与理解）。相比于全局推荐（整个认知路径的推荐）和集中式推荐（路径中片段的整体推荐），散点式推荐侧重单点的点击反馈推荐，如图11中黑色虚线圆形中的推荐项。散点式推荐方法的细节是：给定任意两条符合散点式推荐条件的路径，首先检测两者之间相同的点击，在任意一对相同点击之间判断最短的认知路径，并将这一路径上的相关反馈予以推荐。比如，图11中路径i（起点为i的路径）与路径j（起点为j的路径）共有的相同点击a和c之间存在两条路径｛a,x,y,c｝和｛a,b,c｝，散点式推荐将采用路径｛a,b,c｝，实现相关反馈b的推荐。

于此，散点式推荐方法的渐进性是指：推荐路径并不始终唯一，而是逐步地检测两条路径间每一对相同点击，始终选择两点间最短路径予以推荐，不顾及被推荐的最短路径是否附属于同一认知脉络。例如在图11中，尽管点击a和c之间的推荐路径为｛a,b,c｝，该路径附属于认知脉络i（黑洞中起点为i的路径），但是点击c和f之间的推荐路径为｛c,z,f｝，即推荐相关反馈z，该路径隶属于认知脉络j（黑洞中起点为j的路径）。由此，符合散点式推荐的路径之间始终实现的是最优路径的选择，并借助逐步的检测进行最优路径的判定。然而，现实用户的点击路径最初是未知数，如何断定针对该用户的路径推荐采用集中式方法或是散点式方法呢？又因无法预知用户路径和黑洞中哪些已知路径存在相同点击，如何选择推荐路径的候选呢？因而，散点式推荐需要预先解决的问题是：初始条件稀疏的情况下进行候选路径的判定。

具体地，候选路径判定包括三个步骤。第一是利用黑洞起点分类法划分黑洞中的查询类别，选择与用户的待测查询在语言层面和认知层面上较为一致的查询类。第二是针对该类查询开启的系列认知路径进行关联性划分，划分的一种结果是单一查询为起点的独立路径群（无关联），另一种划分是多查询为起点的关联路径群。图12是本发明较佳实施例提供的“黑洞”的路径划分样例示意图。如图12所示，起点i开启了系列独立认知逻辑路径（使用同一查询的多个用户逻辑脉络），起点j、k、p开启了系列关联路径（使用不同查询的多个用户逻辑脉络）；第三是判定路径候选，该步骤有两种可选方案：一种是借助查询的文字和认知近似度进行初步判定；另一种是借助用户的初始点击进行更为深入的判定。当用户输入查询检索信息的初期，利用查询近似性确定黑洞中近似的查询类，并从中定位最为近似的查询，将其至黑洞中心的最短路径予以推荐，即为全局推荐；随着用户点击的增加，用户点击将给予更为精细的认知趋势，此时采用方案二，从当前查询类中检测最为近似于用户点击脉络的路径，并将其作为候选，然后分析该候选在当前查询类中的环境，如果仍为无关联独立路径则继续全局推荐，否则（即存在如图12中的关联路径），则根据集中式推荐或散点式推荐条件，进行路径的推荐。在此基础上，继续跟踪用户的点击，根据用户点击情况调整路径候选，迭代进行上述处理，形成渐进性的候选选择和路径推荐模型。

图13是本发明较佳实施例提供的渐进式迭代推荐过程样例示意图，如图13所示，上述迭代的渐进式推荐过程可以借助图13的样例进行解释。当用户仅仅给出查询时，如果黑洞中存在一类查询在语言和认知近似性上匹配于用户查询，则可以进行上述迭代推荐过程。假设图13中的起点i、j、k、o所在的查询类与用户查询具有一致性或近似性，那么迭代过程中，首先定位其中最为近似的起点（利用路径对起点的查询扩展），如果定位到的起点引起了无关联路径，则使用这一起点引起的最短路径进行全局推荐。例如，图13中近似于用户查询的起点为i，则将该起点至黑洞中心最短路径上所有反馈全部推荐，高位排列，按点击顺序排序。如果定位到的起点引起的认知路径存在关联路径，如图13中起点j、k、o的路径互为关联路径，则将所有关联路径中起点最近似于被定位起点，且路径最短的认知脉络予以推荐。例如图13中起点k最近似于用户查询，而起点o最近似与k，且其路径短于起点k的路径，则将o的路径全局推荐。于本实施例中，推荐的渐进性体现在：如果用户初始给予的点击为a和e（见图11），则初始推荐的路径将不准确，此时的候选路径为路径k（即起点为k的路径），而由于路径k与j出现了散点推荐的条件，即路径k与路径j在开始部分存在相同点击a和c，且两点击之间更优的路径为{a,b,c}，隶属于路径j，则散点式推荐将会把相关反馈b作为推荐重点，高位排列。然而，随着用户点击的继续深入，如果用户并不按照推荐进行认知，而是继续点击路径k中的x，形成｛a,e,x｝的认知路径，则渐进式推荐将改变现有的推荐模式，且由于此时，路径｛a,e,x｝在路径k和o之间满足了集中式推荐条件，即两者具有一致点击序列片段｛e,x｝，则集中式推荐将把路径o上点击x之后的路径片段｛p,q｝给予推荐。整个渐进式迭代推荐过程，将以上述模式，随着用户点击的不断出现，根据满足条件的不同，时刻改变最可能的路径或散点予以推荐。

综上所述，根据本发明较佳实施例提供的相关反馈间关系网络的构建与应用方法，通过检测并分析用户点击行为形成的用户逻辑关系，建立描述用户认知脉络的关系体系，借以描述相关反馈间蕴含的丰富信息，在无关信息之间建立关联。同时将具有同一方向的脉络聚为一类，形成黑洞形态的用户逻辑群，并将其应用于个性化信息推荐，提高了用户查询推荐和检索结果排序推荐的性能。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种相关反馈间关系网络的构建与应用方法，其特征在于，包括以下步骤：

S3、根据所述黑洞，进行用户检索系统中的用户查询推荐以及检索结果排序推荐，所述检索结果排序推荐包括全路径推荐和局部路径推荐，所述局部路径推荐又包括集中式局部推荐和散点式局部推荐；

步骤S2中黑洞形态的用户逻辑群中，所述黑洞为：若任一查询均存在一个终极目标和多个起点，每个起点至终极目标的过程存在至少一次点击，则黑洞的中心为终极目标，黑洞的半径为终极目标与距离所述终极目标最远的起点之间的距离，且每个起点和黑洞中心之间的系列点击称为一个吸引路径；

在步骤S2中，所述黑洞形态的用户逻辑群的形成过程为：将每个点击脉络作为一个聚类，并将其描述为点击方向的序列向量，即点击向量；借助语言模型计算每一对聚类的相似度，采用自底向上的凝聚式划分方法，将近似度最高的一对聚类合并为一类，并度量新类中每个点击向量中每个方向的生成概率，辅助后续聚类时的相似度计算；持续向上聚类，直到所有聚类汇聚于一点，或所有聚类的相似度都低于某一阈值。

2.根据权利要求1所述的方法，其特征在于，在步骤S1中，所述用户的查询点击行为，指用户点击查看的检索结果、对应的详情页面以及所述点击行为之间的时序关系，所述用户的点击结果即相关反馈。

3.根据权利要求1所述的方法，其特征在于：所述全路径推荐是将黑洞中特定路径上所有点击对应的相关反馈全部予以推荐，高位排列并按照点击顺序进行排序；局部路径推荐是将黑洞中特定路径上局部点击片段对应的相关反馈给予推荐，高位排列并按点击顺序予以排序。

4.根据权利要求1或3所述的方法，其特征在于，当被推荐用户使用的查询项与被推荐路径起点对应的查询项具有一致性或近似性时，实施全路径推荐。

5.根据权利要求1所述的方法，其特征在于，当用户的初始点击序列与黑洞中某一路径的连续点击片段有着高度一致性时，实施集中式局部推荐，且所述集中式局部推荐将一致性片段之后的点击按序整体推荐。

6.根据权利要求1所述的方法，其特征在于，当两条或多条认知路径之间具有较多相同点击反馈且点击并不连续时，实施散点式局部推荐。