CN109753994A

CN109753994A - 用户画像方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN109753994A
Application number: CN201811513520.7A
Authority: CN
Inventors: 于福超; 王菊
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-05-14
Anticipated expiration: 2038-12-11
Also published as: CN109753994B

Abstract

本公开涉及一种用户画像方法、装置、计算机可读存储介质及电子设备，所述方法包括：将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签；确定每一所述候选标签与所述目标用户的匹配参数；根据每一所述候选标签与所述目标用户的匹配参数，从所述候选标签中确定能够用于标记所述目标用户的目标标签，并为所述目标用户标记所述目标标签。通过上述方案，可以将候选标签中与目标用户相匹配的标签为用户标记，保证为用户标记标签的准确性，有效避免为用户添加目标样本的全部标签造成用户画像混乱甚至错误的现象。同时，也可以有效丰富用户的标签，使得用户画像更加丰富和准确，提升用户使用体验。

Description

用户画像方法、装置、计算机可读存储介质及电子设备

技术领域

本公开涉及数据分析领域，具体地，涉及一种用户画像方法、装置、计算机可读存储介质及电子设备。

背景技术

目前，用户画像已经成为各个行业内争相追捧的功能之一，用户画像的作用在于帮助商家或者客户准确了解用户的需求、爱好、兴趣等各个方面。现有技术中，通常是根据与当前用户相关的物品，如用户购买过的物品，从而将物品的标签传递用户，以丰富用户当前用户的画像。然而，在根据样本的标签为用户添加标签时，直接为用户添加该样本的全部标签，使得不符合用户画像的标签也被标记，从而导致用户画像不准确。

发明内容

为了解决上述问题，本公开的目的是提供一种准确的用户画像方法、装置、计算机可读存储介质及电子设备。

为了实现上述目的，根据本公开的第一方面，提供一种用户画像方法，所述方法包括：

将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签；

确定每一所述候选标签与所述目标用户的匹配参数；

根据每一所述候选标签与所述目标用户的匹配参数，从所述候选标签中确定能够用于标记所述目标用户的目标标签，并为所述目标用户标记所述目标标签。

可选地，所述确定每一所述候选标签与所述目标用户的匹配参数，包括：

针对每一所述候选标签，确定该候选标签在每个相似用户所具有的标签中对应的占比，并将与每个相似用户对应的占比确定为该候选标签与该相似用户对应的第一权重；

确定由全部候选标签所形成的标签向量与每个相似用户的标签向量之间的相似度，并将所述相似度的平均值确定为每一所述候选标签对应的第二权重；

根据所述候选标签的所述第一权重和所述第二权重，通过以下公式确定所述候选标签与所述目标用户的匹配参数：

其中，Fit表示所述候选标签与所述目标用户的匹配参数；

M表示所述相似用户的数量；

w_whole表示所述候选标签w的第二权重；

w_i表示所述候选标签w与第i个相似用户对应的第一权重。

可选地，所述根据每一所述候选标签与所述目标用户的匹配参数，从所述候选标签中确定能够用于标记所述目标用户的目标标签，包括以下中的任一者：

将与所述目标用户的匹配参数小于预设的匹配阈值的候选标签确定为所述目标标签；

将按照与所述目标用户的匹配参数由小至大的顺序、排名前S的候选标签确定为所述目标标签，其中，S为正整数。

可选地，所述目标样本通过如下方式确定：

将所述至少一个相似用户感兴趣的至少一个样本确定为第一样本；

以每个所述第一样本作为类中心对待聚类样本进行聚类处理，获得与所述第一样本数量相同的样本类簇，其中，所述待聚类样本为样本集中除所述相似用户和所述目标用户所关联的样本之外的样本；

从每个所述样本类簇中确定能够代表该样本类簇的多个第二样本，并将每个所述第二样本确定为所述目标样本。

可选地，所述以每个所述第一样本作为类中心对待聚类样本进行聚类处理，包括：

针对每个所述待聚类样本，根据该待聚类样本及其所属的用户的标签向量，确定该待聚类样本与各个所述第一样本之间的距离，并将该待聚类样本划分至距离最短的第一样本对应的样本类簇中。

可选地，根据该待聚类样本及其所属的用户的标签向量，通过以下公式，确定该待聚类样本与各个所述第一样本之间的距离：

其中，D(X,Y)表示待聚类样本X和第一样本Y之间的距离；

表示所述待聚类样本所属的用户U_x和所述第一样本所属的用户U_y之间的相似度；

K表示所述待聚类样本X和第一样本Y所关联的标签去重后的总个数；

x_i表示所述待聚类样本X的标签向量中第i维对应的标签的权重；

y_i表示所述第一样本Y的标签向量中第i维对应的标签的权重。

可选地，所述从每个所述样本类簇中确定能够代表该样本类簇的多个第二样本，包括以下中的任一者：

在对应的样本类簇中，按照与第一样本之间的距离由大至小的顺序、排名前T的待聚类样本及所述第一样本确定为所述第二样本，其中，T为正整数；

在对应的样本类簇中，将与第一样本之间的距离小于预设的距离阈值的样本及所述第一样本确定为所述第二样本。

可选地，在所述将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签的步骤之前，所述方法还包括：

确定目标用户对应的至少一个相似用户和至少一个非相似用户；

根据目标样本与所述至少一个相似用户的第一匹配度及所述目标样本与所述至少一个非相似用户的第二匹配度，确定所述目标样本与所述目标用户的匹配度；

所述将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签，包括：

在所述目标样本与所述目标用户的匹配度超过预设的匹配度阈值时，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。

可选地，通过如下公式确定目标样本与所述至少一个相似用户的第一匹配度：

其中，表示所述第一匹配度；

M表示所述相似用户的数量；

P表示所述目标样本的标签向量；

X_i表示第i个相似用户的标签向量。

可选地，通过如下公式确定目标样本与所述至少一个非相似用户的第二匹配度：

其中，表示所述第二匹配度；

N表示所述非相似用户的数量；

P表示所述目标样本的标签向量；

Y_i表示第i个非相似用户的标签向量。

可选地，所述根据目标样本与所述至少一个相似用户的第一匹配度及所述目标样本与所述至少一个非相似用户的第二匹配度，确定所述目标样本与所述目标用户的匹配度，包括：

将所述第一匹配度的加权值与所述第二匹配度的加权值之差确定为所述目标样本与所述目标用户的匹配度。

根据本公开的第二方面，提供一种用户画像装置，所述装置包括：

第一确定模块，用于将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签；

第二确定模块，用于确定每一所述候选标签与所述目标用户的匹配参数；

标记模块，用于根据每一所述候选标签与所述目标用户的匹配参数，从所述候选标签中确定能够用于标记所述目标用户的目标标签，并为所述目标用户标记所述目标标签。

可选地，所述第二确定模块包括：

第一确定子模块，用于针对每一所述候选标签，确定该候选标签在每个相似用户所具有的标签中对应的占比，并将与每个相似用户对应的占比确定为该候选标签与该相似用户对应的第一权重；

第二确定子模块，用于确定由全部候选标签所形成的标签向量与每个相似用户的标签向量之间的相似度，并将所述相似度的平均值确定为每一所述候选标签对应的第二权重；

第三确定子模块，用于根据所述候选标签的所述第一权重和所述第二权重，通过以下公式确定所述候选标签与所述目标用户的匹配参数：

其中，Fit表示所述候选标签与所述目标用户的匹配参数；

M表示所述相似用户的数量；

w_whole表示所述候选标签w的第二权重；

w_i表示所述候选标签w与第i个相似用户对应的第一权重。

可选地，所述标记模块包括以下中的任一者：

第四确定子模块，用于将与所述目标用户的匹配参数小于预设的匹配阈值的候选标签确定为所述目标标签；

第五确定子模块，用于将按照与所述目标用户的匹配参数由小至大的顺序、排名前S的候选标签确定为所述目标标签，其中，S为正整数。

可选地，所述装置还包括：

目标样本确定模块，所述目标样本确定模块包括：

第六确定子模块，用于将所述至少一个相似用户感兴趣的至少一个样本确定为第一样本；

聚类子模块，用于以每个所述第一样本作为类中心对待聚类样本进行聚类处理，获得与所述第一样本数量相同的样本类簇，其中，所述待聚类样本为样本集中除所述相似用户和所述目标用户所关联的样本之外的样本；

标记子模块，用于从每个所述样本类簇中确定能够代表该样本类簇的多个第二样本，并将每个所述第二样本确定为所述目标样本。

可选地，所述聚类子模块用于：

可选地，聚类子模块用于根据该待聚类样本及其所属的用户的标签向量，通过以下公式，确定该待聚类样本与各个所述第一样本之间的距离：

其中，D(X,Y)表示待聚类样本X和第一样本Y之间的距离；

可选地，所述标记子模块，包括以下中的任一者：

第七确定子模块，用于在对应的样本类簇中，按照与第一样本之间的距离由大至小的顺序、排名前T的待聚类样本及所述第一样本确定为所述第二样本，其中，T为正整数；

第八确定子模块，用于在对应的样本类簇中，将与第一样本之间的距离小于预设的距离阈值的样本及所述第一样本确定为所述第二样本。

可选地，所述装置还包括：

第三确定模块，用于在所述第一确定模块将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签之前，确定目标用户对应的至少一个相似用户和至少一个非相似用户；

第四确定模块，用于根据目标样本与所述至少一个相似用户的第一匹配度及所述目标样本与所述至少一个非相似用户的第二匹配度，确定所述目标样本与所述目标用户的匹配度；

所述第一确定模块用于在所述目标样本与所述目标用户的匹配度超过预设的匹配度阈值时，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。

可选地，所述的第四确定模块用于通过如下公式确定目标样本与所述至少一个相似用户的第一匹配度：

其中，表示所述第一匹配度；

M表示所述相似用户的数量；

P表示所述目标样本的标签向量；

X_i表示第i个相似用户的标签向量。

可选地，所述第四确定模块用于通过如下公式确定目标样本与所述至少一个非相似用户的第二匹配度：

其中，表示所述第二匹配度；

N表示所述非相似用户的数量；

P表示所述目标样本的标签向量；

Y_i表示第i个非相似用户的标签向量。

可选地，所述第四确定模块用于将所述第一匹配度的加权值与所述第二匹配度的加权值之差确定为所述目标样本与所述目标用户的匹配度。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面任一所述方法的步骤。

根据本公开的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面任一所述方法的步骤。

在上述技术方案中，在根据目标样本为目标用户标记标签时，首先确定出候选标签，从而避免为用户重复标记标签，提高标记效率。之后，通过确定每一候选标签与该目标用户的匹配参数，以确定出候选标签中可以为目标用户标记的标签。因此，通过上述方案，可以将候选标签中与目标用户相匹配的标签为用户标记，保证为用户标记标签的准确性，有效避免为用户添加目标样本的全部标签造成用户画像混乱甚至错误的现象。同时，也可以有效丰富用户的标签，使得用户画像更加丰富和准确，提升用户使用体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开的一种实施方式提供的用户画像方法的流程图；

图2是根据本公开的另一种实施方式提供的用户画像方法的流程图；

图3是根据本公开的另一种实施方式提供的用户画像方法的流程图；

图4是根据本公开的另一种实施方式提供的用户画像方法的流程图；

图5是根据本公开的另一种实施方式提供的用户画像方法的流程图；

图6是根据本公开的另一种实施方式提供的用户画像方法的流程图；

图7是根据本公开的另一种实施方式提供的用户画像方法的流程图；

图8是根据本公开的一种实施方式提供的用户画像装置的框图；

图9是根据一示例性实施例示出的一种电子设备的框图；

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

针对背景技术中所述的问题，本公开提供一种用户画像方法，如图1所示，所述方法包括：

在S11中，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。其中，目标样本可以是为目标用户标记标签的任一样本。样本的具体内容可以根据实际的使用场景进行确定。示例地，在某一购物网站对用户进行画像时，该样本可以是物品；在文库网站对用户进行画像时，该样本则可以是文本。

其中，在根据样本对应的标签为用户标记标签时，因为用户已具有的标签不需要重新标记，所以目标样本和目标用户都具有的标签可以忽略，只需要对目标样本具有但是目标用户不具有的标签进行判定。

在S12中，确定每一候选标签与目标用户的匹配参数。其中，候选标签与目标用户的匹配参数用于表征该候选标签与目标用户是否匹配，从而确定是否为该目标用户标记该候选标签。

在S13中，根据每一候选标签与目标用户的匹配参数，从候选标签中确定能够用于标记目标用户的目标标签，并为目标用户标记目标标签。

示例地，根据候选标签与目标用户的匹配参数，将与目标用户相匹配的候选标签确定为目标标签，从而可以为目标用户标记该目标样本中、与目标用户相匹配的标签。

在上述技术方案中，在根据目标样本为目标用户标记标签时，首先确定出候选标签，从而避免为用户重复标记标签，提高标记效率。之后，通过确定每一候选标签与该目标用户的匹配参数，以确定出候选标签中可以为目标用户标记的标签。因此，通过上述方案，可以将候选标签中与目标用户相匹配的标签为用户标记，保证为用户标记标签的准确性，有效避免现有技术中为用户添加目标样本的全部标签造成用户画像混乱甚至错误的现象。同时，也可以有效丰富用户的标签，使得用户画像更加丰富和准确，提升用户使用体验。

可选地，在S12中，确定每一所述候选标签与所述目标用户的匹配参数的一种示例性实现方式如下，包括：

针对每一所述候选标签，确定该候选标签在目标用户的至少一个相似用户所具有的标签中对应的占比，并将与每个相似用户对应的占比确定为该候选标签与该相似用户对应的第一权重。

其中，可以根据各个用户的标签向量确定用户之间的相似度，示例地，可以根据用户关联的标签确定用户的标签向量。例如，当计算用户X和用户Y之间的相似度时，可以将用户X和用户Y所关联的标签去重后所得的标签确定为向量维度，针对任一维度，若用户关联的标签中包含该维度对应的标签，则用户的标签向量中该维度值为1，若用户关联的标签中不包含该维度对应的标签，则用户的标签向量中该维度值为0，由此则可以确定出用户的标签向量。示例地，用户U1关联的标签为{a,d,f,g,h}，用户U2关联的标签为{a,b,c,f}。因此，在用户U1和用户U2进行向量化时，对用户U1和用户U2的标签进行去重所得标签向量的维度为{a,b,c,d,f,g,h}，以用户U1为例，用户U1关联的标签为{a,d,f,g,h}，则在用户U1对应的标签向量中标签a、d、f、g、h对应的维度值为1，标签b、c对应的维度值为0，则用户U1对应的标签向量为{1,0,0,1,1,1,1}，用户U2对应的标签向量为{1,1,1,0,1,0,0}。

在确定出用户的标签向量之后则可以通过计算用户的标签向量之间的相似度确定用户之间的相似度。例如，在用户与目标用户之间的相似度表征该用户与目标用户相似时，可以将该用户确定为目标用户的相似用户。其中，相似度可以基于向量之间的距离进行表征，示例地，用户的标签向量之间的距离小于第一阈值时，确定两者相似；也可以基于向量之间的夹角的余弦值进行表征，示例地，用户的标签向量之间的夹角的余弦值大于第二阈值时，确定两者相似。其中，第一阈值和第二阈值可以根据实际使用场景进行设置，本公开对此不进行限定。

在确定出目标用户的相似用户后，分别确定该候选标签在每个相似用户具有的标签中对应的占比。示例地，相似用户A不具有候选标签a，则候选标签a与该相似用户A对应的第一权重为0，相似用户B具有包含候选标签a在内的10个标签，则，候选标签a与该相似用户B对应的第一权重为0.1(即，1/10)。

其中，根据全部候选标签形成标签向量的方式与上文标签向量的生成方式类似，在此不再赘述。在该实施例中，可以根据由全部候选标签所形成的标签向量分别与每个相似用户的标签向量计算相似度，之后将确定出的该标签向量与各个相似用户的标签向量的相似度的平均值确定为候选标签的第二权重。

其中，Fit表示所述候选标签与所述目标用户的匹配参数；

M表示所述相似用户的数量；

w_whole表示所述候选标签w的第二权重；

w_i表示所述候选标签w与第i个相似用户对应的第一权重。

其中，候选标签与目标用户的匹配参数越小，表示候选标签与目标用户越匹配。候选标签与各个相似用户对应的第一权重表征该候选标签自身与目标用户的相似用户之间的相似度，第二权重可以表征全部候选标签与相似用户之间的相似度。因此，在确定候选标签与目标用户的匹配参数时，可以基于全部候选标签的基础上确定候选标签与所述目标用户的匹配参数，从而可以有效避免目标样本和目标用户都具有的标签对匹配参数的影响，保证确定出的匹配参数的准确性，为后续确定目标标签提供准确的数据支持。

可选地，根据每一候选标签与目标用户的匹配参数，从候选标签中确定能够用于标记目标用户的目标标签，包括以下中的任一者：

将与目标用户的匹配参数小于预设的匹配阈值的候选标签确定为目标标签；

将按照与目标用户的匹配参数由小至大的顺序、排名前S的候选标签确定为目标标签，其中，S为正整数。

其中，该匹配阈值可以根据实际使用情况进行设置，本公开对此不进行限定。在一实施例中，候选标签与目标用户的匹配参数越小，表征该候选标签与目标用户的匹配度越高，因此，可以直接将与目标用户的匹配参数小于预设的匹配阈值的候选标签确定为目标标签，提高候选标签确定的效率，有效保证用户画像的处理效率。在另一实施例中，也可以按照与目标用户的匹配参数由小至大的顺序确定目标标签，从而可以有效保证目标标签的个数，有效降低用户画像过程中数据的处理量，提升标记效率。

另外，发明人通过对用户进行画像的过程分析还发现：当用户相关的物品较少时，仅根据该用户相关的物品对用户的标签进行标记时，会使得用户画像比较单薄，难以对用户进行准确地画像。因此，为了解决该问题，本公开还提供一种用户画像方法，如图2所示，所述方法包括：

在S21中，将目标用户的至少一个相似用户感兴趣的至少一个样本确定为第一样本。

其中，确定目标用户的相似用户的方式已在上文进行详述，在此不再赘述。在确定出相似用户时，可以根据相似用户确定第一样本。在该实施例中，相似用户感兴趣的样本可以是在最近一时段内相似用户的总浏览次数较多的样本，示例地，若预先设置了第一样本的总个数，如10个，则可以将相似用户关联的样本按照其总浏览次数由高至低的顺序、排名前10的样本确定为第一样本。又例如，也可以设置一浏览阈值，将相似用户的总浏览次数超过该浏览阈值的样本确定为第一样本。

在S22中，以每个第一样本作为类中心对待聚类样本进行聚类处理，获得与第一样本数量相同的样本类簇，其中，所述待聚类样本为样本集中除所述相似用户和所述目标用户所关联的样本之外的样本。其中，样本集可以根据实际使用场景确定。示例地，在购物网站中对用户进行画像时，该样本集可以该购物网站中的所有物品所形成的集合。

在S23中，从每个样本类簇中确定能够代表该样本类簇的多个第二样本，并将每个第二样本确定为目标样本。

示例地，在确定出第一样本后，可以根据第一样本对样本集中的样本进行聚类，从而将每个样本类簇中确定出的第二样本确定为目标样本。如上文所述，第一样本是根据目标用户的相似用户感兴趣的样本确定出的，因此，针对于相似用户所关联的除该感兴趣的样本之外的样本与目标用户的相关性较低，而其感兴趣的样本已作为类中心进行聚类，因此，在对样本集中的样本进行聚类时，可以直接忽略相似用户和目标用户所关联的样本，从而可以有效提高聚类效率，有效降低数据计算量。

在S24中，根据目标样本关联的标签为目标用户标记标签。

在一实施例中，可以为目标用户标记目标样本所关联的全部标签，从而使得目标用户的画像更加丰富。

在另一实施例中，可以按照目标样本的所关联的标签的标记时间选择部分标签为目标用户标记。例如，可以将目标样本在近三个月内标记的标签为目标用户标记。

在上述技术方案中，通过确定目标用户的相似用户感兴趣的样本，并基于该感兴趣的样本对其他样本进行聚类，从而获得以各个感兴趣样本为中心的样本类簇，之后根据各个样本类簇确定出目标样本，并根据目标样本关联的标签为目标用户标记标签。通过上述技术方案，一方面可以保证目标样本与目标用户之间的相关性，另一方面，可以有效拓宽目标样本的数量和范围，从而提高用户画像的准确性和丰富程度，提升用户使用体验。

其中，一个样本可以与多个用户进行关联，在确定样本所属的用户时，可以将与该样本关联的用户中、与该样本的最匹配的用户确定为该样本的所属用户。其中，可以根据样本的标签向量和与该样本关联的用户的标签向量的相似度确定样本与用户的匹配度。其中，样本的标签向量和用户的标签向量的确定方式与上文所述标签向量的确定方式类似，在此不再赘述。当匹配度通过距离进行表征时，若用户的标签向量与样本的标签向量之间的距离最小，则将该用户确定为该样本的所属用户；当匹配度通过余弦值进行表征时，若用户的标签向量与样本的标签向量之间的夹角的余弦值最大，则将该用户确定为该样本的所属用户。

其中，D(X,Y)表示待聚类样本X和第一样本Y之间的距离；

表示所述待聚类样本所属的用户U_x和所述第一样本所属的用户U_y之间的相似度。若相似度通过距离表征时，可以直接将待聚类样本所属的用户U_x和所述第一样本所属的用户U_y之间的距离确定为所述相似度；若相似度通过余弦值表征时，可以将余弦值的倒数确定为所述相似度。

其中，在计算待聚类样本所属的用户和第一样本所属的用户之间的相似度时，可以根据两者所关联的标签确定其对应的标签向量的维度，以确保两者标签向量的维度是相同的。确定标签向量的方式在上文已经详述，在此不再赘述。

可选地，所述从每个样本类簇中确定能够代表该样本类簇的多个第二样本，包括以下中的任一者：

1)在对应的样本类簇中，按照与第一样本之间的距离由大至小的顺序、排名前T的待聚类样本及所述第一样本确定为所述第二样本，其中，T为正整数。

其中，样本类簇中能够代表该样本类簇的样本为处于该样本类簇的虚拟中心附近的样本。示例地，针对任一样本类簇，第一样本为其对应的样本类簇中的中心，可以直接将第一样本确定为第二样本；针对该样本类簇中除第一样本之外的样本，可以按照与第一样本之间的距离由大至小进行排序，由此，通过选择排名在前的待聚类样本以确定出样本类簇的虚拟中心附近的样本，从而确定出各个第二样本。

2)在对应的样本类簇中，将与第一样本之间的距离小于预设的距离阈值的样本及所述第一样本确定为所述第二样本。

在另一实施例中，可以通过设置距离阈值的方式确定各个第二样本，其中，距离阈值可以根据实际使用情况进行设置。

因此，通过上述技术方案，可以准确地从每个样本类簇中确定出能够代表该样本类簇的多个第二样本，从而为对用户画像提供准确的数据基础，有效保证基于该目标样本进行用户画像的准确度。

为了进一步确保用户画像的准确性，本公开还提供以下实施例，在该实施例中，综合考虑了上文所述用户相关的物品较少、直接为用户添加样本的全部标签为用户进行画像对用户画像准确性的影响，具体流程图如图3所示，如下：

在S31中，将目标用户的至少一个相似用户感兴趣的至少一个样本确定为第一样本；

在S32中，以每个第一样本作为类中心对待聚类样本进行聚类处理，获得与第一样本数量相同的样本类簇，其中，所述待聚类样本为样本集中除所述相似用户和所述目标用户所关联的样本之外的样本。

在S33中，从每个样本类簇中确定能够代表该样本类簇的多个第二样本，并将每个第二样本确定为目标样本。

在S34中，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。

在S35中，确定每一候选标签与目标用户的匹配参数。其中，候选标签与目标用户的匹配参数用于表征该候选标签与目标用户是否匹配，从而确定是否为该目标用户标记该候选标签。

在S36中，根据每一候选标签与目标用户的匹配参数，从候选标签中确定能够用于标记目标用户的目标标签，并为目标用户标记目标标签。

其中，S31、S32、S33的具体实施方式与上文中S21、S22、S23的具体实施方式相同，S34、S35、S36的具体实施方式与上文中S11、S12、S13的具体实施方式相同，在此不再赘述。

通过上述技术方案，一方面可以有效拓宽目标样本的数量和范围，从而可以为用户画像提供数据基础，另一方面也可以有效保证标签标记的准确性，避免出现用户画像混乱的现象，提升用户使用体验。

另外，发明人通过对用户进行画像的过程分析还发现：在根据用户相关的样本为对用户画像时，直接根据用户关联的样本为用户进行画像，使得不属于该用户的样本所对应标签也被标记，从而会造成用户画像混乱。为了解决该问题，本公开提供一种用户画像方法，如图4所示，所述方法包括：

在S41中，确定目标用户对应的至少一个相似用户和至少一个非相似用户。

其中，确定目标用户的相似用户的方式已在上文进行详述，在此不再赘述。类似地，可以根据同样的方式确定目标用户的非相似用户。在确定出各个其他用户与目标用户的相似度后，当该相似度表征该用户与目标用户不相似时，将该用户确定为目标用户的非相似用户。示例地，当用户的标签向量之间的距离大于第三阈值时，确定两者不相似；又例如，当用户的标签向量之间的夹角的余弦值小于第四阈值时，确定两者不相似。其中，第三阈值和第四阈值可以根据实际使用情况进行设置，本公开对此不进行限定。

在S42中，根据目标样本与至少一个相似用户的第一匹配度及目标样本与至少一个非相似用户的第二匹配度，确定目标样本与目标用户的匹配度。

其中，在该实施例中，在确定目标样本与目标用户的匹配度时，不仅基于该目标用户的相似用户进行考量，同时还基于该目标用户的非相似用户进行考量，使得确定出的目标样本与目标用户之间的匹配度更加全面和准确。

在S43中，在目标样本与目标用户的匹配度超过预设的匹配度阈值时，根据目标样本关联的标签为目标用户标记标签。

示例地，在目标样本与目标用户的匹配度超过预设的匹配度阈值时，表示该目标样本和该目标用户是匹配的，即可以将目标样本的标签标记为用户的标签。

可选地，在目标样本与目标用户的匹配度未超过该匹配度阈值时，可以直接忽略该目标样本，不将该目标样本的标签为该目标用户标记。

在现有技术中，为用户标记标签时，通常是将与该用户的账号相关联的所有样本都作为与用户相关的样本。然后在实际情况中，多个用户对同一账号进行操作的场景比较常见，示例地，用户B可以借助用户A的账号购买了一本书，这本书相关的信息应该是与用户B对应，直接以这本书的标签为用户A进行标签标记时，可能会使得用户A的画像比较混乱。又例如，对于用户A购买之后却又退货的物品，直接根据根物品的标签对用户A的标签进行标记时，也可能造成用户A的画像混乱。

因此，在上述技术方案中，基于目标用户的相似用户和目标用户的非相似用户确定目标样本和目标用户的匹配度，从而在确定目标样本和目标用户之间的匹配度超过预设的匹配度阈值时，根据目标样本关联的标签为目标用户标记标签。因此，通过上述技术方案，在目标样本与目标用户匹配时，根据目标样本为目标用户标记标签，从而可以有效避免为用户标记本与该用户不相关的样本的标签，有效提高用户画像的准确度，提升用户使用体验。

可选地，通过如下公式确定目标样本与至少一个相似用户的第一匹配度：

其中，表示所述第一匹配度；

M表示所述相似用户的数量；

P表示所述目标样本的标签向量；

X_i表示第i个相似用户的标签向量，其中，标签向量的确定方式已在上文进行详述，在此不再赘述。

可选地，通过如下公式确定目标样本与至少一个非相似用户的第二匹配度：

其中，表示所述第二匹配度；

N表示所述非相似用户的数量；

P表示所述目标样本的标签向量；

Y_i表示第i个非相似用户的标签向量。

其中，通过上述公式可以分别确定出目标样本和相似用户之间的第一匹配度、及目标样本和非相似用户之间的第二匹配度，该第一匹配度越高，表示该目标样本与目标用户的匹配度越高；第二匹配度越低，表示目标样本非相似用户之间的匹配度越低，即目标样本和目标用户之间的匹配度越高。由此，通过上述技术方案，可以对目样本和目标用户之间的匹配度进行精确地度量，为确定与目标用户所匹配的目标样本提供准确的数据支持。

可选地，所述目标样本与至少一个相似用户的第一匹配度及目标样本与至少一个非相似用户的第二匹配度，确定目标样本与目标用户的匹配度，包括：

示例地，可以根据如下公式确定目标样本与目标用户的匹配度：

其中，表示目标样本和目标用户的匹配度；

α表示加权权重，示例地，α取值可以是0.6。

示例地，在多个用户操作同一账号进行操作时，可以通过目标用户的非相似用户对目标样本和目标用户的匹配度进行侧向考量。本公开中正是基于与目标用户的非相似用户匹配度较高的样本、与该目标用户的匹配度较低这一思想，在确定目标样本和目标用户的匹配度时，不仅基于目标样本与相似用户之间的匹配度，同时也基于目标样本与非相似用户之间的匹配度对目标样本和目标用户的相似度进行考量，从而有效可以准确地确定是该目标样本与目标用户的匹配度，为保证用户画像的准确度提供准确的数据支持，符合用户的使用需求，进一步提升用户使用体验。

在另一实施例中，为了进一步确保用户画像的准确性，本公开还提供以下实施例，在该实施例中，综合考虑了上文所述直接根据用户关联的样本为用户进行画像、直接为用户添加该样本的全部标签对用户画像准确性的影响，具体地，如图5所示，所述方法包括：

在S51中，确定目标用户对应的至少一个相似用户和至少一个非相似用户。

在S52中，根据目标样本与至少一个相似用户的第一匹配度及目标样本与至少一个非相似用户的第二匹配度，确定目标样本与目标用户的匹配度。

在S53中，在目标样本与目标用户的匹配度超过预设的匹配度阈值时，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。

在S54中，确定每一候选标签与目标用户的匹配参数。

在S55中，根据每一候选标签与目标用户的匹配参数，从候选标签中确定能够用于标记目标用户的目标标签，并为目标用户标记目标标签。

其中，S51、S52的具体实施方式和S41、S42的具体实施方式相同，S53、S54、S55的具体实施方式和S11、S12、S13的具体实施方式类似，在此不再赘述。需要进行说明的是，在S53中，需要首先确定目标样本与目标用户的匹配度是否超过预设的匹配度阈值，在确定目标样本与目标用户的匹配度超过预设的匹配度阈值时，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签的具体实施方式在S11中已经详述，在此不再赘述。

因此，在上述技术方案中，首先确定目标样本是否与目标用户匹配，在确定目标样本与目标用户的匹配度超过预设的匹配度阈值时，根据目标样本所关联的标签对目标用户进行画像，从而可以保证用户画像的基础的准确性，有效避免为用户标记与用户不符的样本的标签。之后，在根据目标样本的标签对目标用户的标签进行标记时，通过确定标签与用户之间的匹配参数，以确定该标签与用户的匹配度，从而可以进一步保证用户标签标记的准确性，既可以丰富用户画像，又能够保证用户画像的准确度，进一步提升用户使用体验。

可选地，在对用户进行画像时，针对上文所述用户相关的物品较少、直接根据用户关联的样本为用户进行画像对用户画像准确性的影响，本公开提供以下实施例，具体地，如图6所示，所述方法包括：

在S61中，将目标用户的至少一个相似用户感兴趣的至少一个样本确定为第一样本；

在S62中，以每个第一样本作为类中心对待聚类样本进行聚类处理，获得与第一样本数量相同的样本类簇，其中，所述待聚类样本为样本集中除所述相似用户和所述目标用户所关联的样本之外的样本。

在S63中，从每个样本类簇中确定能够代表该样本类簇的多个第二样本，并将每个第二样本确定为目标样本。

在S64中，确定目标用户对应的至少一个相似用户和至少一个非相似用户。

在S65中，根据目标样本与至少一个相似用户的第一匹配度及目标样本与至少一个非相似用户的第二匹配度，确定目标样本与目标用户的匹配度。

在S66中，在目标样本与目标用户的匹配度超过预设的匹配度阈值时，根据目标样本关联的标签为目标用户标记标签。

其中，S61、S62、S63的具体实施方式和S21、S22、S23的具体实施方式相同，S64、S65、S66的具体实施方式和S41、S42、S43的具体实施方式相同，在此不再赘述。

需要进行说明的是，上述流程图中所示顺序仅为一种示例性实现方式，不对本公开进行限定。示例地，确定出目标用户的相似用户和非相似用户的步骤S64可以在S61之前执行，S64和S61也可以同时执行，本公开对此不进行限定。

在上述技术方案中，可以通过聚类的方式确定出目标样本，从而可以增加目标样本的数量和范围，为丰富用户画像提供样本基础。在根据目标样本对目标用户进行画像时，又可以对目标样本和目标用户的匹配度进行考虑，从而可以在扩大目标样本范围的同时，有效保证目标样本的准确性，从而保证用户画像的准确性。

可选地，在对用户进行画像时，针对上文所述用户相关的物品较少、直接根据用户关联的样本为用户进行画像、以及直接为用户添加样本的全部标签为用户进行画像对用户画像准确性的影响，本公开提供以下实施例，具体地，如图7所示，所述方法包括：

在S71中，将目标用户的至少一个相似用户感兴趣的至少一个样本确定为第一样本；

在S72中，以每个第一样本作为类中心对待聚类样本进行聚类处理，获得与第一样本数量相同的样本类簇，其中，所述待聚类样本为样本集中除所述相似用户和所述目标用户所关联的样本之外的样本。

在S73中，从每个样本类簇中确定能够代表该样本类簇的多个第二样本，并将每个第二样本确定为目标样本。

在S74中，确定目标用户对应的至少一个相似用户和至少一个非相似用户。

在S75中，根据目标样本与至少一个相似用户的第一匹配度及目标样本与至少一个非相似用户的第二匹配度，确定目标样本与目标用户的匹配度。

在S76中，在目标样本与目标用户的匹配度超过预设的匹配度阈值时，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。

在S77中，确定每一候选标签与目标用户的匹配参数。

在S78中，根据每一候选标签与目标用户的匹配参数，从候选标签中确定能够用于标记目标用户的目标标签，并为目标用户标记目标标签。

其中，S71、S72、S73的具体实施方式和S21、S22、S23的具体实施方式相同，S74、S75的具体实施方式和S41、S42的具体实施方式相同，S76、S77、S78的具体实施方式和S11、S12、S13的具体实施方式类似，在此不再赘述。需要进行说明的是，在S76中，需要首先确定目标样本与目标用户的匹配度是否超过预设的匹配度阈值，在确定目标样本与目标用户的匹配度超过预设的匹配度阈值时，将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签。将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签的具体实施方式在S11中已经详述，在此不再赘述。

通过上述技术方案，一方面可以有效拓宽为用户画像进行标记时的样本数量和范围，为丰富用户画像提供数据支持。同时，又可以有效保证为用户画像进行标记时的样本与用户的匹配度，进一步保证为用户进行画像的标签的准确性，使得用户画像更精准。另外，在对基于样本关联的标签为用户标记标签时，通过对标签和用户的匹配度进行考量，从而有效避免为用户标记与其不匹配的标签而造成的用户画像混乱的问题，进一步提升用户使用体验。

本公开还提供一种用户画像装置，如图8所示，所述装置10包括：

第一确定模块100，用于将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签；

第二确定模块200，用于确定每一所述候选标签与所述目标用户的匹配参数；

标记模块300，用于根据每一所述候选标签与所述目标用户的匹配参数，从所述候选标签中确定能够用于标记所述目标用户的目标标签，并为所述目标用户标记所述目标标签。

可选地，所述第二确定模块200包括：

其中，Fit表示所述候选标签与所述目标用户的匹配参数；

M表示所述相似用户的数量；

w_whole表示所述候选标签w的第二权重；

w_i表示所述候选标签w与第i个相似用户对应的第一权重。

可选地，所述标记模块300包括以下中的任一者：

可选地，所述装置10还包括：

目标样本确定模块，所述目标样本确定模块包括：

可选地，所述聚类子模块用于：

其中，D(X,Y)表示待聚类样本X和第一样本Y之间的距离；

可选地，所述标记子模块，包括以下中的任一者：

可选地，所述装置还包括：

其中，表示所述第一匹配度；

M表示所述相似用户的数量；

P表示所述目标样本的标签向量；

X_i表示第i个相似用户的标签向量。

其中，表示所述第二匹配度；

N表示所述非相似用户的数量；

P表示所述目标样本的标签向量；

Y_i表示第i个非相似用户的标签向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种电子设备700的框图。如图9所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的用户画像方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的用户画像方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的用户画像方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的用户画像方法。

图10是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图10，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的用户画像方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的用户画像方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的用户画像方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种用户画像方法，其特征在于，所述方法包括：

确定每一所述候选标签与所述目标用户的匹配参数；

2.根据权利要求1所述的方法，其特征在于，所述确定每一所述候选标签与所述目标用户的匹配参数，包括：

其中，Fit表示所述候选标签与所述目标用户的匹配参数；

M表示所述相似用户的数量；

w_whole表示所述候选标签w的第二权重；

w_i表示所述候选标签w与第i个相似用户对应的第一权重。

3.根据权利要求1所述的方法，其特征在于，所述根据每一所述候选标签与所述目标用户的匹配参数，从所述候选标签中确定能够用于标记所述目标用户的目标标签，包括以下中的任一者：

4.根据权利要求1所述的方法，其特征在于，所述目标样本通过如下方式确定：

5.根据权利要求4所述的方法，其特征在于，所述以每个所述第一样本作为类中心对待聚类样本进行聚类处理，包括：

6.根据权利要求5所述的方法，其特征在于，根据该待聚类样本及其所属的用户的标签向量，通过以下公式，确定该待聚类样本与各个所述第一样本之间的距离：

其中，D(X,Y)表示待聚类样本X和第一样本Y之间的距离；

7.根据权利要求1-6中任一项所述的方法，其特征在于，在所述将目标样本对应的标签中、目标用户当前所不具有的至少一个标签确定为候选标签的步骤之前，所述方法还包括：

8.一种用户画像装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。