CN112348583B

CN112348583B - 用户偏好生成方法与生成系统

Info

Publication number: CN112348583B
Application number: CN202011218373.8A
Authority: CN
Inventors: 李嘉晨; 刘思明
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-12-06
Anticipated expiration: 2040-11-04
Also published as: CN112348583A

Abstract

本发明涉及数据处理技术领域，公开了一种用户偏好生成方法与生成系统。所述用户偏好生成方法包括：根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取该两个集合对应的多个子集合对；根据所述用户访问集合与所述供给集合对应的每个子集合对之间的相似度及其所占的权重，确定所述用户访问集合对应的多个子集合中的每一者的强度；以及从所述用户访问集合对应的多个子集合中，筛选强度排序位于前k个名次的子集合，以生成用于表征用户偏好的前k个偏好组合。本发明可有效地筛选出属性差异大且维度不固定的偏好组合，其可实现用户访问集合与供给集合之间相似度的有效提升，从而能够更真实有效地反映用户的偏好。

Description

用户偏好生成方法与生成系统

技术领域

本发明涉及数据处理技术领域，具体地涉及一种用户偏好生成方法与生成系统。

背景技术

在约束理论(TOC,Theory of constraints)模式中，准确的理解用户的需求偏好，是进行供需撮合的必要前提。从线上服务的角度看，可以基于对用户偏好的理解进行千人千面的用户触达。而进入到线上线下联动的业务模式，将基于线上数据生成的用户偏好理解，低失真的传递给线下服务环节，提升服务质量的连贯性，是偏好理解的另一关键点。

现有的偏好挖掘技术基于某一确定的偏好组合(即先验的偏好组合且该偏好组合的维度是确定的)，主要采用有基于历史的统计方法或基于有监督的模型预测方法确定用户对该偏好组合中的各枚举组合的偏好程度。然而，上述方法均忽视了用户的偏好组合具有较大的差异(例如偏好组合的属性/特征不同，或者偏好组合的维度不同(即不定长偏好组合))这一特点，从而规避了偏好组合需要面对的不定长偏好的生成和比较的问题。也就是说，现有技术将用户放在相同的偏好组合空间内进行比较，导致用户可能在某一维度上根本不存在偏好，但依旧被“强制挖掘”，导致挖掘的数据失真。

发明内容

本发明的目的是提供一种用户偏好生成方法与生成系统，其可有效地筛选出属性差异大且维度不固定的偏好组合，且该偏好组合可实现用户访问集合与供给集合之间相似度的有效提升，从而所筛选得到的偏好组合能够更真实有效地反映用户的偏好。

为了实现上述目的，本发明第一方面提供一种用户偏好生成方法，所述用户偏好生成方法包括：根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对；根据所述用户访问集合与所述供给集合对应的多个子集合对中的每一者之间的相似度及所述用户访问集合对应的多个子集合中的每一者所占的权重，确定所述用户访问集合对应的多个子集合中的每一者的强度；以及从所述用户访问集合对应的多个子集合中，筛选强度排序位于前k个名次的子集合，以生成用于表征用户偏好的前k个偏好组合。

优选地，所述对用户访问集合与供给集合进行分裂包括：根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值；预测由所述第一特征及该第一特征所对应的特征值所要执行的所述第一分裂的结果是否满足分裂停止条件；在所预测的所述第一次分裂的结果未满足所述分裂停止条件的情况下，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂，以获取所述用户访问集合与所述供给集合对应的第一子集合对与第二子集合对；根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第一子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第一子集合的多个第一分支的第U1次分裂的结果满足所述分裂停止条件为止，以获取由所述第一子集合对分裂的多个子集合对；以及根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第二子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第二子集合的多个第二分支的第U2次分裂的结果满足所述分裂停止条件为止，以获取由所述第二子集合对分裂的多个子集合对。

优选地，所述确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值包括：确定所述用户访问集合与所述供给集合之间的相似度；确定所述用户访问集合与所述供给集合按照多个预设特征中的每个预设特征及该每个预设特征的多个预设特征值中的每一者分裂后的相似度；根据所述用户访问集合与所述供给集合之间的相似度、及所述用户访问集合与所述供给集合按照所述每个预设特征及该每个预设特征的每个预设特征值分裂后的相似度，确定因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益；以及根据因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益，筛选最大的相似度增益所对应的特定预设特征及该特定预设特征的特定预设特征值为所述第一特征及该第一特征所对应的特征值。

优选地，所述分裂停止条件包括以下两个条件中的任一者：因第i次分裂所产生的当前子集合对之间的相似度增益小于预设增益，其中所述当前子集合为所述第i次分裂所分裂的对象；或者所述当前子集合对通过所述第i次分裂后的两个子集合对中的任一者的样本量小于预设数量。

优选地，所述采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂包括：根据单值分裂方式或区间分裂方式，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行分裂。

优选地，所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度通过以下方式获取：基于信息熵公式或余弦相似度公式，计算所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度。

优选地，所述用户访问集合对应的多个子集合中的每一者所占的权重由所述用户访问集合对应的多个子集合中的每一者的样本量决定。

通过上述技术方案，本发明创造性地首先根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对，其中所述多个子集合对中的每一者内的特征与维度均不是固定的；然后根据每个子集合对之间的相似度及其所占的权重，确定所述用户访问集合对应的多个子集合的强度；最后筛选出强度排序位于前k个名次的子集合，由此，本发明可有效地筛选出属性差异大且维度不固定的偏好组合，且该偏好组合可实现用户访问集合与供给集合之间相似度的有效提升，从而所筛选得到的偏好组合能够更真实有效地反映用户的偏好。

本发明第二方面提供一种用户偏好生成系统，所述用户偏好生成系统包括：分裂装置，用于根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对；强度确认装置，用于根据所述用户访问集合与所述供给集合对应的多个子集合对中的每一者之间的相似度及所述用户访问集合对应的多个子集合中的每一者所占的权重，确定所述用户访问集合对应的多个子集合中的每一者的强度；以及筛选装置，用于从所述用户访问集合对应的多个子集合中，筛选强度排序位于前k个名次的子集合，以生成用于表征用户偏好的前k个偏好组合。

优选地，所述分裂装置包括：第一确定模块，用于根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值；预测模块，用于预测由所述第一特征及该第一特征所对应的特征值所要执行的所述第一分裂的结果是否满足分裂停止条件；第一分裂模块，用于在所预测的所述第一次分裂未满足分裂停止条件的结果的情况下，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂，以获取所述用户访问集合与所述供给集合对应的第一子集合对与第二子集合对；第二分裂模块，用于根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第一子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第一子集合的多个第一分支的第U1次分裂的结果满足所述分裂停止条件为止，以获取由所述第一子集合对分裂的多个子集合对；以及第三分裂模块，用于根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第二子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第二子集合的多个第二分支的第U2次分裂的结果满足所述分裂停止条件为止，以获取由所述第二子集合对分裂的多个子集合对。

优选地，所述第一确定模块包括：第一相似度确定单元，用于确定所述用户访问集合与所述供给集合之间的相似度；第二相似度确定单元，用于确定所述用户访问集合与所述供给集合按照多个预设特征中的每个预设特征及该每个预设特征的多个预设特征值中的每一者分裂后的相似度；第一增益确定单元，用于根据所述用户访问集合与所述供给集合之间的相似度、及所述用户访问集合与所述供给集合按照所述每个预设特征及该每个预设特征的每个预设特征值分裂后的相似度，确定因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益；以及第一筛选单元，用于根据因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益，筛选最大的相似度增益所对应的特定预设特征及该特定预设特征的特定预设特征值为所述第一特征及该第一特征所对应的特征值。

优选地，所述分裂停止条件包括以下两个条件中的任一者：因第i次分裂所产生的当前子集合对之间的相似度增益小于预设增益，其中所述当前子集合为所述第i次分裂所分裂的对象；或者所述当前子集合对通过所述第i次分裂后的两个子集合对中的任一者的样本量小于预设数量

优选地，所述第一分裂模块用于采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂包括：根据单值分裂方式或区间分裂方式，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行分裂。

优选地，所述生成系统还包括：计算装置，用于基于信息熵公式或余弦相似度公式，计算所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度。

有关本发明提供的用户偏好生成系统的具体细节及益处可参阅上述针对用户偏好生成方法的描述，于此不再赘述。

本发明第三方面还提供一种机器可读存储介质，所述机器可读存储介质上存储有指令，该指令用于使得机器执行上述的用户偏好生成方法。

本发明第四方面还提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的用户偏好生成方法。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明一实施例提供的用户偏好生成方法的流程图；

图2是本发明一实施例提供的对用户访问集合与供给集合进行分裂的流程图；

图3是本发明一实施例提供的确定第一特征及该第一特征所对应的特征值的流程图；

图4是本发明一实施例提供的二叉树生成框架示意图；

图5是本发明一实施例提供的实际的执行分裂过程的二维空间示意图；以及

图6是本发明一实施例提供的用户偏好生成系统的结构图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在介绍本发明的具体实施方式之前，先对本发明的主要设计思路进行简单的概括。

以房源为例，用户与房源的交互行为是用户对曝光房源内容的筛选决策结果。基于用户的历史访问进行偏好的推断，无论是通过现有的何种方法论，均可认为是从“表现”推断偏好(即解交互的传统模式)。然而，用户的访问量不仅与用户本身的意愿相关，更与其“能看到”哪些房源相关。而房源信息获取需求，常常存在较强的可替代性。因此，“用户交互最多的房源”可能是供给多与偏好相叠加的产物，从“(结)果”进行偏好的推断混杂了供给的因素，并未重视的反映客户的偏好。

相对于“果”，在本发明中可将获取用户与房源交互的“因”的过程类比为筛选判别，即用户看到每一个房源卡片，是否要点击，都是经过该筛选器的处理的结果。因此，本发明中的基于“因”的偏好挖掘是要找到用户决策的筛选器，而不依赖于曝光房源的情况。具体地，(1)关于偏好的特点：用户的需求可以被多种形式所满足，通过数据统计可以看到，即使在带看阶段，用户访问集合(即交互房源集合)也可以被判断为多个组合的并集，这导致了用户偏好存在多峰的情况。与此同时，由于需求不同，故用户关心的关键属性不同，且明确程度也不同，这导致用户偏好组合的维数不固定。(2)关于本发明所要解决的技术问题抽象：用户与房源发生交互的留痕是用户购房偏好对供给侧房源筛选的结果。该条件可被认为成以下情形：对于满足用户需求的房源(即基于用户偏好筛选后的房源)，用户的访问是随机无偏的。因此，本发明所要解决的技术问题是通过分裂的动作找到局限条件的组合，同时度量局限条件对相似度的贡献。其中通过局限条件限定后的用户访问集合为同条件限定下的结果的无偏采样。

图1是本发明一实施例提供的用户偏好生成方法的流程图。所述生成方法可包括步骤S101-S103，如图1所示。

步骤S101，根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对。

对于步骤S101，所述对用户访问集合与供给集合进行分裂可包括步骤S201-S205，如图2所示。

步骤S201，根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值。

在各个实施例中，每一次分裂进行空间切割的目的是寻找能使得相似度提升最大的特征(即属性)与特征值(如，枚举值)。

对于步骤S201，所述确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值可包括步骤S301-S304，如图3所示。

步骤S301，确定所述用户访问集合与所述供给集合之间的相似度。

具体确定所述用户访问集合Su与所述供给集合Ss之间的相似度SIMI(Su,Ss)的过程可参见下文在步骤S102处的描述。

步骤S302，确定所述用户访问集合与所述供给集合按照多个预设特征中的每个预设特征及该每个预设特征的多个预设特征值中的每一者分裂后的相似度。

其中，所述多个预设特征及其相应的预设特征值可按照实际需求进行设置。在优选实施例中，可设置足够数量的预设特征，例如在房源方面，可设置常用的30多种预设特征(例如，居室、面积、价格、地铁线等)。

对于多个预设特征中的任一预设特征A及其对应的任一特征值a而言，所述用户访问集合Su按照A＝a可分裂为两个子集合Su|(f1＝A且v1＝a)与Su|(f1＝A且v1！＝a)，所述供给集合Su按照该预设特征A＝a可分裂为两个子集合Ss|(f1＝a)与Ss|(f1！＝a)，以及所述用户访问集合Su与所述供给集合Ss按照A＝a分裂后的相似度可为SIMI[Ss,Su,A_a]，其可按照下式计算得到：SIMI[Ss,Su,A_a]＝N_{Su|(f1＝A且v1＝a)}/N_Su*SIMI[Su|(f1＝A且v1＝a),Ss|(f1＝A且v1＝a)]+N_{Su|(f1＝A且v1！＝a)}/N_Su*SIMI[Su|(f1＝A且v1！＝a),Ss|(f1＝A且v1！＝a)]，其中，N_{Su|(f1＝A且v1＝a)}/N_Su分别为用户访问集合按照f1＝A且v1＝a筛选得到的子集合的样本量与用户访问集合的样本量。与关于上式中的两个子集合之间的相似度的计算可参见下文在步骤S102处的描述。

步骤S303，根据所述用户访问集合与所述供给集合之间的相似度、及所述用户访问集合与所述供给集合按照所述每个预设特征及该每个预设特征的每个预设特征值分裂后的相似度，确定因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益。

对于多个预设特征中的任一预设特征A及其对应的任一特征值a而言，因所述用户访问集合Su与所述供给集合Ss按照A＝a分裂产生的相似度提升(即相似度增益)为分裂后的相似度减去分裂前的相似度。

G(A_a)＝SIMI[Ss,Su,A_a]-SIMI[Ss,Su]，

步骤S304，根据因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益，筛选最大的相似度增益所对应的特定预设特征及该特定预设特征的特定预设特征值为所述第一特征及该第一特征所对应的特征值。

当通过步骤S303获取因各个预设特征及该预设特征的各个预设特征值分裂所产生的用户访问集合与供给集合的相似度增益之后，从中筛选出最大的相似度增益，并确定该增益所对应的特定预设特征及其特定预设特征值；然后将特定预设特征及其特定预设特征值确定用于对所述用户访问集合与所述供给集合进行分裂的第一特征及该第一特征的特征值。以房源为例，最大的相似度增益所对应的特定预设特征及其特定预设特征值分别为“价格”及“100万”，则确定“价格”及“100万”分别为第一特征及特征值。

步骤S202，预测由所述第一特征及该第一特征所对应的特征值所要执行的所述第一分裂的结果是否满足分裂停止条件。

具体地，可按照类似于步骤S203的过程预测第一分裂的结果(但实际上此时仅是预测操作，并不执行分裂操作)，然后判断预测结果是否满足分裂停止条件，若不满足则进行分裂；若满足则停止分裂。

步骤S203，在所预测的所述第一次分裂的结果未满足所述分裂停止条件的情况下，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂，以获取所述用户访问集合与所述供给集合对应的第一子集合对与第二子集合对。

其中，所述采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂可包括：根据单值分裂方式或区间分裂方式，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行分裂。

单值(One Or Other)分裂方式比较适用于非高维的类别形特征(例如，特征-地铁线属性)。若通过步骤S201确定的第一特征及特征值分别为地铁线及“1”，则分裂规则为是否地铁线“1”，满足筛选规则的集合走左子树，不符合规则的进入右子树，如图4所示。使用此类方法分裂的属性，在一条路径中只能被使用一次。

区间分裂方式适用于连续特征或存在序数关系的离散特征(如价格、面积等)。若通过步骤S201确定的第一特征及特征值分别为“价格”及“100万”，则分类规则为“价格”是否大于“100万”(即f1＝“价格”且v1＝“100万”)，满足筛选规则的集合走左子树，不符合规则的进入右子树，如图4所示。使用此类方法分裂的属性，一条路径中最多可被使用两次，以形成封闭空间。对于连续变量使用分位数搜索法，先对连续变量按照分位数进行倒排序，每5％的频率区间取一档。每次的分裂都在各档位间进行，这样可以加快分裂的速度，但以牺牲精度为前提。

步骤S204，根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第一子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第一子集合的多个第一分支的第U1次分裂的结果满足分裂停止条件为止，以获取由所述第一子集合对分裂的多个子集合对。

对于步骤S204，所述对所述用户访问集合与所述供给集合对应的第一子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第一子集合的多个第一分支的第U1次分裂的结果满足所述分裂停止条件为止可包括：根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合对应的第一子集合对进行第二次分裂的第二特征及该第二特征所对应的特征值；预测由所述第二特征及该第二特征所对应的特征值所要执行的所述第二分裂的结果是否满足所述分裂停止条件；在所预测的所述第二次分裂的结果未满足所述分裂停止条件的情况下，采用所述第二特征及该第二特征所对应的特征值分别对所述用户访问集合与所述供给集合对应的第一子集合对进行第二次分裂，以获取由所述第一子集合对分裂的两个子集合对；分别对由所述第一子集合对分裂的两个子集合对进行递归分裂，以确定用于对所述多个第一分支中的每个第一分支的当前子集合对进行第U1次分裂的下一特征及该下一特征所对应的特征值；以及在所预测的通过对应于所述每个第一分支的当前子集合对的下一特征及该下一特征的特征值对所述每个第一分支的当前子集合对所执行的第U1次分裂的结果均满足所述分裂停止条件的情况下，确定递归分裂的过程已完成。当然，U1为正整数，且每个第一分支所执行的分裂次数、每次分裂所使用的特征及特征值可不同。

其中，所述分裂停止条件包括以下两个条件中的任一者：因第i次分裂所产生的当前子集合对之间的相似度增益小于预设增益，其中所述当前子集合为所述第i次分裂所分裂的对象；或者所述当前子集合对通过所述第i次分裂后的两个子集合对中的任一者的样本量小于预设数量。其中，i为正整数。

也就是说，当前次分裂最大的相似度增益小于预设增益G(G为预设的第一超参数，说明已经无法通过分裂有效显著地提升相似度)时，可停止分裂。或者，因为存在小区商圈等稀疏的特征，分裂后可能出现子集合对的相似度非常大但用户访问集合的样本量非常小的情形，因此要求二叉分裂后，两个子集合中最小的叶子节点中样本量要大于预设数量Min_leaf_items(Min_leaf_items为预设的第二超参数)，否则停止分裂。即继续执行分裂的条件为既要分裂后的相似度提升最大，又要保证不生成极小的叶子节点(从业务角度看供给不足)。

之后，针对所组成的子集合对分别执行递归分裂过程(包括：在哪个特征/属性上分裂，在哪个特征值上分裂，要不要分裂)，从而针对任一第一分支(例如，经过第一子集合的分支11，如图4所示)可以确定对应于分支11的当前子集合对(该分支11最底端处的将要被分裂的子集合对)的下一特征及相应的特征值；并预测通过该下一特征及特征值对该分支11的当前子集合所执行的分裂的结果是否满足分裂停止条件，若将要执行的分裂所对应的相似度增益小于G(说明已经无法通过分裂有效显著地提升相似度)或分裂后的样本量小于预设数量(说明最小的叶子节点中的样本量太少)，则停止该分支的继续分裂。类似地，在多个第一分支均满足分裂停止条件的情况下，确认针对所述多个第一分支的递归分裂过程已完成。

步骤S205，根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第二子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第二子集合的多个第二分支的第U2次分裂的结果满足所述分裂停止条件为止，以获取由所述第二子集合对分裂的多个子集合对。

对于步骤S205，所述对所述用户访问集合与所述供给集合对应的第二子集合对进行递归分裂，直至所预测的经过所述用户访问集合对应的第二子集合的多个第二分支的第U2次分裂的结果满足所述分裂停止条件为止可包括：根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合所对应的第二子集合对进行第三次分裂的第三特征及该第三特征所对应的特征值；预测由所述第三特征及该第三特征所对应的特征值所要执行的所述第三分裂的结果是否满足分裂停止条件；在所预测的所述第三次分裂的结果未满足所述分裂停止条件的情况下，采用所述第三特征及该第三特征所对应的特征值分别对所述用户访问集合与所述供给集合对应的第二子集合对进行第三次分裂，以获取由所述第二子集合对分裂的两个子集合对；分别对由所述第一子集合对分裂的两个子集合对进行递归分裂，以确定用于所述多个第二分支中的每个第二分支的当前子集合对进行第U2次分裂的下一特征及该下一特征所对应的特征值；预测由所述下一特征及该下一特征所对应的特征值所要执行的所述第U2次分裂的结果是否满足所述分裂停止条件；以及在所预测的通过对应于所述每个第二分支的当前子集合对的下一特征及该下一特征的特征值对所述每个第二分支的当前子集合对所执行的第U2次分裂的结果均满足所述分裂停止条件的情况下，确定递归分裂的过程已完成。当然，U2为正整数，且每个第二分支所执行的分裂次数、每次分裂所使用的特征及特征值可不同。

步骤S205的执行过程与步骤S204的过程相类似，关于步骤S205的具体描述可参见上述步骤S204的相关内容，于此不再进行赘述。

在通过二叉树分裂完成后，可对产生的各个路径(即分支)对应的偏好组合进行强度打分，假设分裂完成后有4条有效路径，对应4个叶子节点；此时针对每个叶子节点计算相应的强度，以作为该叶子节点所对应的偏好组合的强度。例如，对于子集合Su|(f1＝A且v1＝a；f2＝B且v2＝b)，计算得到其强度为N_{Su|(f1＝A且v1＝a；f2＝B且v2＝b)}/N_Su*SIMI[Su|(f1＝A且v1＝a；f2＝B且v2＝b),Ss|(f1＝A且v1＝a；f2＝B且v2＝b)]。

步骤S102，根据所述用户访问集合与所述供给集合对应的多个子集合对中的每一者之间的相似度及所述用户访问集合对应的多个子集合中的每一者所占的权重，确定所述用户访问集合对应的多个子集合中的每一者的强度。

其中，所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度可通过以下方式获取：基于信息熵公式或余弦相似度公式，计算所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度。

具体地，从概率的角度，基于多维联合分布，通过下面的信息熵公式计算相应局限条件下第一集合与第二集合的相对熵(即KL散度或相似度)：

其中，P(X)与Q(X)分别为第一集合与第二集合中的任一特征值X的样本量。在第一集合与第二集合分别为供给集合Ss与用户访问集合Su的情况下，可通过上述信息熵公式计算局限条件下供给集合Ss与用户访问集合Su的相对熵(即KL散度或相似度)。

从空间角度看，可以通过将两个样本集合映射到多维空间，通过余弦相似度公式(即cosin距离)计算两个集合的相似度。

其中，所述用户访问集合对应的多个子集合中的每一者所占的权重可由所述用户访问集合对应的多个子集合中的每一者的样本量决定。例如，用户访问集合最终被分裂成的多个子集合中的任一子集合的权重可为该子集合的样本量占用户访问集合中的样本量的比例。

经过分裂之后，用户访问集合存在多个子集合(即偏好组合，其相当于一购房方案)，由于用户在多个子集合(即偏好组合)之间也存在相对的偏好程度，故为了能够更好地比较各个子集合，在本文中引入各个子集合(即偏好组合)的“强度”(即倾向度)的概念来表示用户对各个子集合(即偏好组合)的偏好程度。也就是说，各个购房方案之间的可比的强度(即倾向度)表示用户对各个购房方案的偏好程度。例如，存在多个购房方案(每个购房方案都有相应的强度)的情况下，当购房方案的强度越大时，用户购买相应方案的意愿的越强。具体地，在获得用户访问集合分裂后的各个子集合与(供给集合分裂后的)相应子集合的相似度及所述各个子集合的权重的情况下，将各个子集合所对应的相似度与权重的乘积作为所述各个子集合的强度。由于本实施例考虑了权重对强度的影响，故可惩罚样本量较小的子集合。例如，图5中的子集合L2虽然与供给集合的相似度较高，但由于其样本量太小(用户访问量小)，故最终得到的子集合L2的强度很小，其不能够准确地表征用户偏好。

步骤S103，从所述用户访问集合对应的多个子集合中，筛选强度排序位于前k个名次的子集合，以生成用于表征用户偏好的前k个偏好组合。

其中，k为正整数。具体地，首先可对通过步骤S102所确定的每个子集合的强度进行降序排列，然后筛选排序前k个(即Top-k)子集合。

可采用以下方式存储相应的结果：因为用户的偏好组合数量不定(分裂次数不确定)，故在存储时的结构可为{用户id，偏好组合(向量)，强度值}。

因此，二叉树的生成是递归的调用，在哪个属性上分裂，在哪个值上分裂，要不要分裂，执行实际执行分裂。从初始节点看，拿到供给房源集合与用户访问房源集合后，选择在哪个属性上分裂的收益最大，找到后同时对供给与用户访问集合进行分裂，分别形成左、右子树，而后对左、右子树迭代上述过程。

实际的执行分裂过程在二维空间上，可以理解为图5所示的情形：前提为整个面为供给集合Ss，曲线所围成的面为用户访问集合Su；按照f1＝A且v1＝a筛选得到的：最外围的长方形L1-1所围成的面为Ss的一子集合，而该长方形内的相应曲线所围成的面为Su的一子集合(该子集合与Ss的一子集合为子集合对)；而最外围的长方形之外的面为Ss的另一子集合，而整个Su处该长方形内的相应曲线所围成的面之外的面为Su的另一子集合(该子集合与Ss的另一子集合为另一子集合对)。接着，在对上述各个子集合继续进行二叉分裂，直至各个路径均满足分裂停止条件为止。此时，得到的用户访问房源就是上述所用到的各个特征及相应特征值限定条件下的供给空间。需要注意的是图5仅示出长方形内部的分裂情况。

通过树分裂的方式，能通过找到使得用户访问房源与供给房源相似度提升的偏好组合，进而找到用户的组合偏好，并通过强度度量，对用户的组合偏好进行排序，从而生成用户的偏好组合，可直接回答用户想买什么房子的问题。

综上所述，本发明创造性地首先根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对，其中所述多个子集合对中的每一者内的特征与维度均不是固定的；然后根据每个子集合对之间的相似度及其所占的权重，确定所述用户访问集合对应的多个子集合的强度；最后筛选出强度排序位于前k个名次的子集合，由此，本发明可有效地筛选出属性差异大且维度不固定的偏好组合，且该偏好组合可实现用户访问集合与供给集合之间相似度的有效提升，从而所筛选得到的偏好组合能够更真实有效地反映用户的偏好。

图6是本发明一实施例提供的用户偏好生成系统的结构图。如图6所示，所述生成系统可包括：分裂装置10，用于根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对；强度确认装置20，用于根据所述用户访问集合与所述供给集合对应的多个子集合对中的每一者之间的相似度及所述用户访问集合对应的多个子集合中的每一者所占的权重，确定所述用户访问集合对应的多个子集合中的每一者的强度；以及筛选装置30，用于从所述用户访问集合对应的多个子集合中，筛选强度排序位于前k个名次的子集合，以生成用于表征用户偏好的前k个偏好组合。

优选地，所述分裂装置10包括：第一确定模块(未示出)，用于根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值；预测模块(未示出)，用于预测由所述第一特征及该第一特征所对应的特征值所要执行的所述第一分裂的结果是否满足分裂停止条件；第一分裂模块(未示出)，用于在所预测的所述第一次分裂的结果未满足分裂停止条件的情况下，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂，以获取所述用户访问集合与所述供给集合对应的第一子集合对与第二子集合对；第二分裂模块(未示出)，用于根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第一子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第一子集合的多个第一分支的第U1次分裂的结果满足所述分裂停止条件为止，以获取由所述第一子集合对分裂的多个子集合对；以及第三分裂模块(未示出)，用于根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第二子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第二子集合的多个第二分支的第U2次分裂的结果满足所述分裂停止条件为止，以获取由所述第二子集合对分裂的多个子集合对。

优选地，所述生成系统还包括：计算装置(未示出)，用于基于信息熵公式或余弦相似度公式，计算所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度。

本发明一实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有指令，该指令用于使得机器执行上述的用户偏好生成方法。

本发明一实施例还提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的用户偏好生成方法。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种用户偏好生成方法，其特征在于，所述用户偏好生成方法包括：

根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对；

根据所述用户访问集合与所述供给集合对应的多个子集合对中的每一者之间的相似度及所述用户访问集合对应的多个子集合中的每一者所占的权重，确定所述用户访问集合对应的多个子集合中的每一者的强度；以及

从所述用户访问集合对应的多个子集合中，筛选强度排序位于前k个名次的子集合，以生成用于表征用户偏好的前k个偏好组合，

其中，所述对用户访问集合与供给集合进行分裂包括：在对所述用户访问集合与所述供给集合进行的同一次分裂的过程中，采用同一特征及该同一特征所对应的同一特征值进行分裂。

2.根据权利要求1所述的用户偏好生成方法，其特征在于，所述对用户访问集合与供给集合进行分裂包括：

根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值；

预测由所述第一特征及该第一特征所对应的特征值所要执行的所述第一次分裂的结果是否满足分裂停止条件；

在所预测的所述第一次分裂的结果未满足所述分裂停止条件的情况下，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂，以获取所述用户访问集合与所述供给集合对应的第一子集合对与第二子集合对；

根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第一子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第一子集合的多个第一分支的第U1次分裂的结果满足所述分裂停止条件为止，以获取由所述第一子集合对分裂的多个子集合对；以及

根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第二子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第二子集合的多个第二分支的第U2次分裂的结果满足所述分裂停止条件为止，以获取由所述第二子集合对分裂的多个子集合对。

3.根据权利要求2所述的用户偏好生成方法，其特征在于，所述确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值包括：

确定所述用户访问集合与所述供给集合之间的相似度；

确定所述用户访问集合与所述供给集合按照多个预设特征中的每个预设特征及该每个预设特征的多个预设特征值中的每一者分裂后的相似度；

根据所述用户访问集合与所述供给集合之间的相似度、及所述用户访问集合与所述供给集合按照所述每个预设特征及该每个预设特征的每个预设特征值分裂后的相似度，确定因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益；以及

根据因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益，筛选最大的相似度增益所对应的特定预设特征及该特定预设特征的特定预设特征值为所述第一特征及该第一特征所对应的特征值。

4.根据权利要求2所述的用户偏好生成方法，其特征在于，所述分裂停止条件包括以下两个条件中的任一者：

因第i次分裂所产生的当前子集合对之间的相似度增益小于预设增益，其中所述当前子集合为所述第i次分裂所分裂的对象；或者

所述当前子集合对通过所述第i次分裂后的两个子集合对中的任一者的样本量小于预设数量。

5.根据权利要求2所述的用户偏好生成方法，其特征在于，所述采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂包括：

根据单值分裂方式或区间分裂方式，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行分裂。

6.根据权利要求1所述的用户偏好生成方法，其特征在于，所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度通过以下方式获取：

基于信息熵公式或余弦相似度公式，计算所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度。

7.根据权利要求1所述的用户偏好生成方法，其特征在于，所述用户访问集合对应的多个子集合中的每一者所占的权重由所述用户访问集合对应的多个子集合中的每一者的样本量决定。

8.一种用户偏好生成系统，其特征在于，所述用户偏好生成系统包括：

分裂装置，用于根据最大相似度增益准则，对用户访问集合与供给集合进行分裂，以获取所述用户访问集合与所述供给集合对应的多个子集合对；

强度确认装置，用于根据所述用户访问集合与所述供给集合对应的多个子集合对中的每一者之间的相似度及所述用户访问集合对应的多个子集合中的每一者所占的权重，确定所述用户访问集合对应的多个子集合中的每一者的强度；以及

筛选装置，用于从所述用户访问集合对应的多个子集合中，筛选强度排序位于前k个名次的子集合，以生成用于表征用户偏好的前k个偏好组合，

9.根据权利要求8所述的用户偏好生成系统，其特征在于，所述分裂装置包括：

第一确定模块，用于根据所述最大相似度增益准则，确定用于对所述用户访问集合与所述供给集合进行第一次分裂的第一特征及该第一特征所对应的特征值；

预测模块，用于预测由所述第一特征及该第一特征所对应的特征值所要执行的所述第一次分裂的结果是否满足分裂停止条件；第一分裂模块，用于在所预测的所述第一次分裂的结果未满足所述分裂停止条件的情况下，采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂，以获取所述用户访问集合与所述供给集合对应的第一子集合对与第二子集合对；

第二分裂模块，用于根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第一子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第一子集合的多个第一分支的第U1次分裂的结果满足所述分裂停止条件为止，以获取由所述第一子集合对分裂的多个子集合对；以及

第三分裂模块，用于根据所述最大相似度增益准则，对所述用户访问集合与所述供给集合对应的第二子集合对进行递归分裂，直至所预测的经过所述用户访问集合或所述供给集合对应的第二子集合的多个第二分支的第U2次分裂的结果满足所述分裂停止条件为止，以获取由所述第二子集合对分裂的多个子集合对。

10.根据权利要求9所述的用户偏好生成系统，其特征在于，所述第一确定模块包括：

第一相似度确定单元，用于确定所述用户访问集合与所述供给集合之间的相似度；

第二相似度确定单元，用于确定所述用户访问集合与所述供给集合按照多个预设特征中的每个预设特征及该每个预设特征的多个预设特征值中的每一者分裂后的相似度；

第一增益确定单元，用于根据所述用户访问集合与所述供给集合之间的相似度、及所述用户访问集合与所述供给集合按照所述每个预设特征及该每个预设特征的每个预设特征值分裂后的相似度，确定因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益；以及

第一筛选单元，用于根据因所述每个预设特征及该每个预设特征的每个预设特征值分裂所产生的所述用户访问集合与所述供给集合之间的相似度增益，筛选最大的相似度增益所对应的特定预设特征及该特定预设特征的特定预设特征值为所述第一特征及该第一特征所对应的特征值。

11.根据权利要求9所述的用户偏好生成系统，其特征在于，所述分裂停止条件包括以下两个条件中的任一者：

12.根据权利要求9所述的用户偏好生成系统，其特征在于，所述第一分裂模块用于采用所述第一特征及该第一特征所对应的特征值分别对所述用户访问集合与所述供给集合进行第一次分裂包括：

13.根据权利要求8所述的用户偏好生成系统，其特征在于，所述生成系统还包括：

计算装置，用于基于信息熵公式或余弦相似度公式，计算所述用户访问集合与所述供给集合所对应的多个子集合对中的每一者之间的相似度。

14.根据权利要求8所述的用户偏好生成系统，其特征在于，所述用户访问集合对应的多个子集合中的每一者所占的权重由所述用户访问集合对应的多个子集合中的每一者的样本量决定。

15.一种机器可读存储介质，其特征在于，所述机器可读存储介质上存储有指令，该指令用于使得机器执行上述权利要求1-7中任一项权利要求所述的用户偏好生成方法。

16.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7中任一项权利要求所述的用户偏好生成方法。