CN112990985B

CN112990985B - 标签联合概率分析方法及系统

Info

Publication number: CN112990985B
Application number: CN202110454629.3A
Authority: CN
Inventors: 吴新宇; 孙静
Original assignee: Beijing Chufan Jiye Technology Co ltd
Current assignee: Beijing Chufan Jiye Technology Co ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-08-22
Anticipated expiration: 2041-04-26
Also published as: CN112990985A

Abstract

本发明涉及一种标签联合概率分析方法及系统，包括通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算标签数据的概率分布，生成标签概率统计表；对所有标签数据进行分组组合，根据标签组合对标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；综合所有标签概率子表的联合概率计算获取标签概率矩阵。本发明通过通过对标签的概率表达，能够处理解决现有0‑1标签区分度不足的问题，估算完整联合概率，充分利用所有已知条件，提高算法标签的精度。

Description

标签联合概率分析方法及系统

技术领域

本发明属于数据分析技术领域，具体涉及一种标签联合概率分析方法及系统。

背景技术

大数据时代，通过多渠道收集用户/产品信息建立标签系统有越来越广泛的应用，比如精准投放，精细化运营等。标签主要分为以下三类：

事实标签(统计标签)：最为基础也最为常见的标签类型，例如，对于某个用户来说，其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。

聚合标签(规则标签)：该类标签基于用户行为及确定的规则产生。例如，对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中，由于运营人员对业务更为熟悉，而数据人员对数据的结构、分布、特征更为熟悉，因此规则类标签的规则由运营人员和数据人员共同协商确定。

算法标签：该类标签通过机器学习挖掘产生，用于对用户的某些属性或某些行为进行预测判断。例如，根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。

标签采集后，会存储在适合业务场景的数据库中。数据库进一步支持编辑，迭代，用户画像产品化的视图查询，多维分析，聚类功能，从而指导经营分析，精准营销，和个性化推荐与服务。

相关技术中，目前主流标签系统主要存在以下问题：

对用户标签属性区分度不足：多数标签采用确定状态判别，比如用0-1表示是或非。比如用户A是某产品的忠实用户，用户B只是偶然咨询过该产品，如果给他们打同样的产品标签显然没有足够的区分度。即使是同样是B用户，他的购买意愿也会呈现周期性的变化，简单的0-1划分显然不够精确。

人工编写标签规则的天然缺陷：除了聚合标签采集完全依赖人工制规则外，我们时常需要对各种未知标签进行推理和预测。传统上这也是通过人工编写规则实现的。比如高收入人群更可能买奢侈品，买化妆品的人可能对珠宝感兴趣。这些条件关系通常是合理有效的，但是在数据爆炸的时代，这种人工方法存在一些难以克服的缺陷。

人工编写的规则缺乏量化手段。比如高收入人群有更大可能性购买豪华轿车，追求性价比的人又可能对豪华轿车没有那么强的倾向性。那么一个收入很高，又讲究性价比的人有多大可能性会买奔驰呢？人工编写的假设关系很难去量化人的购买意愿。

人工规则过于简单。人工定制的标签相关性规则通常没有太高的复杂度。很难想象可以人工构建一条含有超过10种以上标签的有效规则。然而现实是我们往往能通过各种途径积累大量关于客户方方面面的标签，却不能充分利用这些数据的潜力。整体行业急需有效手段去统筹考虑各种标签来更精准地把握用户。

人工规则不易处理残缺不齐的标签数据。我们的数据是海量的，但往往是不规则的，用户A我们可能知道一些性别年龄职业之类的个人属性信息，用户B可能是一些停车场记录，用户C可能是最近购买的书籍。人工手段几乎无法把这些信息有效统一起来得出对数据的综合理解。

人工规则缺乏有效的反馈机制。通常我们会根据这些规则对标签数据做出一些预测来指导实践。等我们观察到实践效果后当然希望可以反过来调整我们的规则。但是人工规则相对难以制定有效反馈机制来做出相应调整，尤其当标签组合比较复杂以后。

除此之外，现有技术中的标签算法实施不够充分：

在项目工程实践中，一般统计类和规则类的标签在开发中占有较大比例。机器学习标签开发周期较长，开发成本较高，因此其开发所占比例较小。它们多用于预测场景，如判断用户性别、用户购买商品偏好、用户流失意向等。目前的算法标签实施主要包含以下缺陷：

通常是零散实施没有系统部署，不能成为一种基础设施快速满足多种需求。且算法输入输出标签范围有限，没有充分利用残缺用户信息。比如一个用户在某些圈定的输入标签维度上信息不全，那么他很难作为训练样本参与计算。然而他在未圈定标签维度上的信息很可能和我们要计算目标有或多或少的相关性，而这一部分信息没有被充分挖掘利用。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种标签联合概率分析方法及系统，以解决现有技术中标签算法实施不够充分的问题。

为实现以上目的，本发明采用如下技术方案：一种标签联合概率分析方法，包括：

通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算所述标签数据的概率分布，生成标签概率统计表；

对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；

综合所有标签概率子表的联合概率计算获取标签概率矩阵。

进一步的，所述对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，包括：

将每个用户的三个标签数据进行标签组合，合成标签三元组；

根据标签三元组对所述标签概率统计表进行拆分得到多个标签概率子表。

进一步的，所述计算所有标签概率子表的联合概率，包括：

计算所述标签三元组的相对熵；其中，所述相对熵的计算公式为：

结合所述标签组合中预设的有效标签的相对熵权重和标签三元组的相对熵计算所有标签概率子表的联合概率；计算公式为：

其中，A、B、C表示标签属性；KL(P_i||P_θ)表示标签三元组的相对熵；P_i表示用户i的概率；A_l表示A标签属性的l标签；B_m表示B标签属性的m标签；C_n表示C标签属性的n标签；表示标签概率子表的联合概率；λ_i是用户i的有效标签的相对熵权重。

进一步的，所述综合所有标签概率子表的联合概率计算获取标签概率矩阵，包括：

将所述所有标签概率子表的联合概率分解为基于所述标签属性的单元概率函数的连乘与用于计算残差的神经网络函数的和，计算公式为

其中，所述单元概率函数的计算公式为：

其中，A(i_n)单元概率函数、Z是归一化因子。

进一步的，确定所述单元概率函数与用于计算残差的神经网络函数后，如果已知任意标签组合X，那么对任意未知标签组合Y求解条件概率；计算公式为

进一步的，还包括：

实时根据训练或实践结果迭代更新训练权重，以更新用于计算残差的神经网络函数。

本申请实施例提供一种标签联合概率分析系统，包括：

生成模块，用于通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算所述标签数据的概率分布，生成标签概率统计表；

拆分模块，用于对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；

计算模块，用于综合所有标签概率子表的联合概率计算获取标签概率矩阵。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种标签联合概率分析方法及系统，包括通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算所述标签数据的概率分布，生成标签概率统计表；对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；综合所有标签概率子表的联合概率计算获取标签概率矩阵。本发明通过通过对标签的概率表达，能够处理解决现有0-1标签区分度不足的问题，估算完整联合概率。

本申请还能够解决人工规则只能处理低纬度标签组的问题，通过估算完整联合概率，解决标签数据残缺，通过单元概率函数和残差Autoencoder天然接受反馈信息。可以充分利用所有已知条件，提高算法标签的精度。本申请还可以提供标签计算的通用接口，解决了现有算法标签临时化，零散话，场景依赖化的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明标签联合概率分析方法的步骤示意图；

图2为本发明不同渠道进入的性别标签信息算出最终概率分布示意图；

图3为本发明全用户全标签概率统计表；

图4为本发明标签联合概率分析系统的结构示意图；。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的标签联合概率分析方法及系统。

如图1所示，本申请实施例中提供的标签联合概率分析方法，包括：

S101，通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算所述标签数据的概率分布，生成标签概率统计表；

S102，对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；

S103，综合所有标签概率子表的联合概率计算获取标签概率矩阵。

标签联合概率分析方法的工作原理为：如图2所示，本申请提供的技术方案标签不再只有确定状态(比如0-1表示是或非)，而是呈现一种概率分布。如果标签为已知，这个概率分布就会集中在某个状态。比如一个用户A性别确定为男。那他的性别标签就是100％男性，0％女性。反之如果该标签为未知，我们只是基于该用户的其他已知信息对该标签进行推测，那么该标签的整体概率就会散布在各个状态。比如我们不知道用户B的性别，但是我们知道他购买过美妆产品，那基于我们的计算他的性别标签就可能是90％女性，10％男性(比如可能是丈夫替妻子购买)。

本申请还能够对所有未知标签进行估算。既然所有标签都是用概率表示，我们就可以给用户所有已知未知标签赋值。比如上面的例子，我们不知道用户B的性别。现有技术中一般是或者不给他/她贴性别标签，或者根据人工规则(比如买美妆的都是女性)强行给B贴上女性标签。而本申请可以通过一系列条件概率权重，计算B性别标签的概率分布。通过本申请提供的标签联合概率分析方法，就可以在所有标签领域为任何用户计算概率分布。如果考虑是不是向某个用户推送某品牌产品，不再是看他有或没有这个产品的标签或通过人工规则决定，而是直接获得这个用户对该品牌倾向性的概率分布。这就解决了标签不规则的问题：所有用户都具有所有标签。对任何用户都能在概率统计意义上获得他的完整画像，这样一个完整标签概率表我们以下称之为标签概率矩阵。

本申请针对现有标签系统的不足，本申请综合运用统计、深度学习等方面的知识提出的标签联合概率分析方法，具体解决的问题包括：

1)通过对标签的概率表达，解决现有0-1标签区分度不足的问题；

2)解决人工规则只能处理低纬度标签组的问题；

3)通过估算完整联合概率，解决标签数据残缺的问题；

4)单元概率函数和残差Autoencoder天然接受反馈信息；

5)因为可以充分利用所有已知条件，我们可以提高算法标签的精度。

通过本申请提供的技术方案，可以提供标签计算的通用接口。解决了现有算法标签临时化，零散话，场景依赖化的问题。

一些实施例中，如图2所示，通过多种渠道获取标签数据。也就是说，同一个标签可能从多个渠道获取，这些渠道的结果彼此印证或互相冲突。本申请制定一个函数按根据不同渠道的权重综合计算一个标签的最终概率分布。其中，多种渠道包括用户登记或调查信息、商业体记录、客户行为，例如：聊天、文章埋点、第三方记录等。

一些实施例中，所述计算所有标签概率子表的联合概率，包括：

具体的，计算标签概率子表的具体工作原理为，本申请需要对整体标签集合做某种有重叠的拆分，形成一系列互相重叠的子表。且用大量重叠子表的联合概率可以恢复整体联合概率。本申请提供的技术方案是对每一个子表做期待最大化优化。下面举例说明如何计算子表的期待最大化。我们实际选择的是三元子表，例如选择性别、年龄和收入进行组合形成标签组合。本申请提供的技术方案利用三元组边缘概率计算单元概率函数，从而用它们的连积主导联合概率估计，再训练神经网络表达估计残差的方案。避免了隐变量状态数F的不确定性，和高维ML、EM算法计算复杂度导致的困难。

这里为方便起见这里以二元子表为例进行描述。

比如我们选性别和收入的标签组合做子表。用A₀代表性别为男，A₁代表性别为女，B₀代表高收入，B₁代表低收入。本申请以最小化相对熵来拟合联合概率P(A₀，B₀)、P(A₀，B₁)、P(A₁，B₀)和P(A₁，B₁)。对于每个用户i，可能有P_i(A₀)、P_i(A₁)、P_i(B₀)和P_i(B₁)，但是不能直接获得P_i(A₀，B₀)、P_i(A₀，B₁)、P_i(A₁，B₀)和P_i(A₁，B₁)。因此可以采用计算公式(1)快速根据最大熵原理估计这些联合概率。

有些用户在子表内没有所有标签，比如用户j只有P_j(A₀)和P_j(A₁)。此时，本申请使用边际概率P(A₀)和P(A₁)计算相对熵。只对A做的相对熵会低估P_j和P的真实概率差距，需要降低它该项的权重。这样就可以用计算公式(2)优化总体拟合概率P，其中λ_i是第用户i的权重。

一些实施例中，所述综合所有标签概率子表的联合概率计算获取标签概率矩阵，包括：

其中，所述单元概率函数的计算公式为：

其中，A(in)单元概率函数、Z是归一化因子。

相关技术中，用最大似然估计或EM算法计算联合概率。然而这里有两个不确定因素是1)F不能事先得到，尽管数学上已经证明F是受限的，但是证明的上限过于宽松，实验上我们也发现比较小的F就可能达到比较好的效果；2)实际应用中标签维度过高，计算很难收敛。

因此，本申请把联合概率分解成两部分：如计算公式(3)所示，其中A(i_n)不是i_n的经验概率P(i_n)，而是综合考虑针对i_n项与联合概率整体联系得出的概率函数。利用我们对三元组边缘概率的同查，定义A(i_n)为公式(4)所示。

其中Z是归一化因子。即对所有包含i_n项的三元组的连积做归一化得到的概率函数。实验表明，如此定义的A(i_n)提供了联合概率的很好的天然近似基础，普遍得到了很低的相对熵。而R(i₁，i₂，...i_N)是修正这一估计的残差，我们可以使用深度学习的Autoencoder方法加入dropout训练学习得出。

注意本申请并不储存联合概率R(i₁，i₂，...i_N)，由于组合爆炸，这实际也不可行。我们得到的是单元概率函数A(in)和训练出来可以动态计算残差的Autoencoder神经网络R。

一些实施例中，确定所述单元概率函数与用于计算残差的神经网络函数后，如果已知任意标签组合X，那么对任意未知标签组合Y求解条件概率；计算公式为

有了单元概率函数A(i_n)和Autoencoder网络R(i₁，i₂，...i_N)后，已知任意标签组X，我们可以对任意未知标签组Y求解条件概率。如公式(5)所示。

而所有联合概率、边缘概率，在本申请提供的技术方案都可以动态生成。显著提高了计算精准度，本申请提供的技术方案因为所有已知信息都被充分利用，也大大简化计算标签的程序，因为标签计算形成了一个简单的通用接口，而不再是临时组织，依赖场景的零散化任务。

本申请提供的标签联合概率分析方法，还包括：

实时更新训练权重，能够实时更新神经网络，以使得计算结果更加精确。

如图4所示，本申请实施例提供一种标签联合概率分析系统，包括：

生成模块401，用于通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算所述标签数据的概率分布，生成标签概率统计表；

拆分模块402，用于对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；

计算模块403，用于综合所有标签概率子表的联合概率计算获取标签概率矩阵。

本申请提供的标签联合概率分析系统的工作原理为，生成模块401通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算所述标签数据的概率分布，生成标签概率统计表；拆分模块402对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；计算模块403综合所有标签概率子表的联合概率计算获取标签概率矩阵。

综上所述，本发明提供一种标签联合概率分析方法及系统，包括通过多种渠道获取标签数据，根据每个渠道对应的渠道权重计算所述标签数据的概率分布，生成标签概率统计表；对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，计算所有标签概率子表的联合概率；综合所有标签概率子表的联合概率计算获取标签概率矩阵。本发明通过通过对标签的概率表达，能够处理解决现有0-1标签区分度不足的问题，估算完整联合概率，充分利用所有已知条件，提高算法标签的精度。

可以理解的是，上述提供的方法实施例与上述的系统实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种标签联合概率分析方法，其特征在于，包括：

综合所有标签概率子表的联合概率计算获取标签概率矩阵；

所述对所有标签数据进行分组组合，根据标签组合对所述标签概率统计表进行拆分得到多个标签概率子表，包括：

根据标签三元组对所述标签概率统计表进行拆分得到多个标签概率子表；

所述计算所有标签概率子表的联合概率，包括：

其中，A、B、C表示标签属性；KL(P_i||P_θ)表示标签三元组的相对熵；P_i表示用户i的概率；A_l表示A标签属性的l标签；B_m表示B标签属性的m标签；C_n表示C标签属性的n标签；表示标签概率子表的联合概率；λ_i是用户i的有效标签的相对熵权重；

所述综合所有标签概率子表的联合概率计算获取标签概率矩阵，包括：

其中，所述单元概率函数的计算公式为：

其中，A(i_n)单元概率函数、Z是归一化因子。

2.根据权利要求1所述的方法，其特征在于，确定所述单元概率函数与用于计算残差的神经网络函数后，如果已知任意标签组合X，那么对任意未知标签组合Y求解条件概率；计算公式为

3.根据权利要求2所述的方法，其特征在于，还包括：

4.一种标签联合概率分析系统，其特征在于，包括：

计算模块，用于综合所有标签概率子表的联合概率计算获取标签概率矩阵；

所述计算所有标签概率子表的联合概率，包括：

其中，所述单元概率函数的计算公式为：

其中，A(i_n)单元概率函数、Z是归一化因子。