CN105426534A

CN105426534A - 信息确定方法及装置

Info

Publication number: CN105426534A
Application number: CN201510959360.9A
Authority: CN
Inventors: 胡楠; 徐礼锋; 张观侣; 钟颙
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-03-23
Also published as: WO2017107551A1; US20180300289A1

Abstract

本发明实施例提供一种信息确定方法及装置，该方法包括：估计待标记样本的特征向量与待预测属性信息之间的关联关系；将关联关系分解为与N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值；基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息；根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系；根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。从而保证不同领域数据之间的保密性。

Description

信息确定方法及装置

技术领域

本发明实施例涉及大数据分析技术，尤其涉及一种信息确定方法及装置。

背景技术

大数据分析是指对规模巨大的数据进行分析，大数据可以概括为4个V，数据量大(Volume)、速度快(Velocity)、类型多(Variety)、真实性(Veracity)，大数据分析较小规模的数据分析，它的数据分析结果更加准确，大数据分析的应用为社会、经济和生产带来了巨大的变革和价值。

数据融合技术是指利用计算机对按时序获得的若干观测信息，在一定准则下加以自动分析、综合，以完成所需的决策和评估任务而进行的信息处理技术，因此，跨领域的数据融合将使大数据分析发挥更大的价值，两个领域的数据融合将产生1+1>2的效果。

假设要对同一用户在不同领域中的实例数据进行分析来估计该用户的待预测属性信息，其中这里的实例数据包括多个属性信息，比如：用户A在移动运营商的实例数据包括的属性信息为：姓名、手机号、消费信息等，而用户A在银行的实例数据包括的属性信息为：姓名、手机号、业务类型、该业务类型涉及金额等，通过这些已知属性信息来估计用户A的待预测属性信息，比如：性别、或者年龄等。现有技术进行大数据分析的过程是：首先根据用户A在移动运营商的标识和在银行的标识实现两个领域的数据融合，这里的标识可以是用户A在移动运营商和银行公共属性信息，比如：姓名，实现数据融合只是按照明文的方式进行数据连接或者组合，然后再对融合后的数据进行分析来估计该用户的待预测属性信息。

上述基于数据融合的数据分析过程可以称为信息确定过程，由于现有技术中的信息确定过程中实现数据融合只是按照明文的方式进行数据连接或者组合，从而无法保证不同领域数据之间的保密性。

发明内容

本发明实施例提供一种信息确定方法及装置，从而在保证不同领域数据之间的保密性的情况下，融合多个领域数据来更加精确的确定待预测信息。

第一方面，本发明实施例提供一种信息确定方法，该方法基于N个领域，N为大于或者等于2的整数，每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，包括：

估计待标记样本的特征向量与待预测属性信息之间的关联关系，其中待标记样本为包括至少一个待预测属性信息的样本；

将关联关系分解为与N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；

获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值；

基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息；估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息，已标记样本为包括的所有属性信息为已知属性信息的样本；

根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系；

根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。

由于该方法中基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息，即无需知道每个领域的属性信息，而是从各个领域获取计算结果，通过公共属性信息实现对同一用户的计算结果进行进一步计算，最后确定待预测属性信息，从而保证不同领域数据之间的保密性。

进一步地，基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息，包括：基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息，其中，N个领域中采用相同加密算法对公共属性信息加密。

由于各个领域采用的加密算法相同，因此，各个领域加密后的公共属性信息一定相同，该方法无需融合各个N个领域的数据，只要基于加密后的公共属性信息实现N个领域数据的对接即可，从而可以提高数据之间的保密性。

一种可选方式，根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定关联关系，包括：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；令所有已标记样本对应的第一差值之和达到最小以确定关联关系。

另一种可选方式，该方法还包括：获取每个领域中各个待标记样本之间的相似度权重；其中，相似度权重用于衡量实例数据之间的相似度；获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值；计算每个领域中各个待标记样本的第二数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；则根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系，包括：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定关联关系。

通过上述两种可选方式可以较为准确地确定待标记样本的特征向量与待预测属性信息之间的关联关系。

进一步地，根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定关联关系之后，还包括：校正关联关系，并将校正后的关联关系作为估计的新的关联关系；直到校正次数超过预设值，则停止；或者，直到所有的关联关系收敛，则停止。该校正过程即为学习过程，通过不断的学习，从而使得关联关系更加精确。

第二方面，本方面实施例提供一种信息确定方法，该方法基于N个领域，N为大于或者等于2的整数，每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将样本所包括的部分或者全部的已知属性信息生成样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，包括：

根据待标记样本的特征向量估计待预测属性信息的概率分布函数，其中待标记样本为包括至少一个待预测属性信息的样本；

将概率分布函数分解为与N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；

获取每个领域中每个已标记样本的特征子向量代入对应的子函数得到的第一数值；

基于公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率，已标记样本为包括的所有属性信息为已知属性信息的样本；

根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数；

根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。

由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率，即无需知道每个领域的属性信息，而是从各个领域获取计算结果，通过公共属性信息实现对同一用户的计算结果进行进一步计算，最后确定待预测属性信息，从而保证不同领域数据之间的保密性。

进一步地，基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率，包括：基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率；其中，N个领域中采用相同加密算法对公共属性信息加密。

一种可选方式，根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数，包括：若已标记样本的待预测属性信息相对应的属性信息对应有m个特定属性信息，m为大于或者等于2的正整数；针对每个已标记样本的每个特定属性信息，若待预测属性信息相对应的属性信息实际为特定属性信息，则计算概率与1的第一差值，否则，则计算概率与0的第一差值；令所有第一差值之和达到最小以确定概率分布函数。

另一种可选方式，该方法还包括：获取每个领域中各个待标记样本之间的相似度权重；其中，相似度权重用于衡量实例数据之间的相似度；获取每个领域中每个待标记样本的特征子向量代入对应的子函数得到的第二数值；计算每个领域中各个待标记样本的数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；则根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数，包括：针对每个已标记样本的每个特定属性信息，若待预测属性信息相对应的属性信息实际为特定属性信息，则计算概率与1的第一差值，否则，则计算概率与0的第一差值；根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定概率分布函数。

通过上述两种可选方式可以较为准确的确定待预测属性信息的概率分布函数。

进一步地，根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数之后，还包括：校正概率分布函数，并将校正后的概率分布函数作为估计的新的概率分布函数；直到校正次数超过预设值，则停止；或者，直到所有的概率分布函数收敛，则停止。该校正过程即为学习过程，通过不断的学习，从而使得概率分布函数更加精确。

下面将介绍发明实施例提供一种信息确定装置，其中装置部分与上述方法对应，对应内容技术效果相同，在此不再赘述。

第三方面，本发明实施例提供一种信息确定装置，该装置基于N个领域，N为大于或者等于2的整数，每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，包括：

估计模块，用于估计待标记样本的特征向量与待预测属性信息之间的关联关系，其中待标记样本为包括至少一个待预测属性信息的样本；

分解模块，用于将关联关系分解为与N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；

获取模块，用于获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值；

计算模块，用于基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息；估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息，已标记样本为包括的所有属性信息为已知属性信息的样本；

确定模块，用于根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定关联关系；

确定模块，还用于根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。

进一步地，计算模块具体用于：基于加密后的所述公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息，其中，N个领域中采用相同加密算法对公共属性信息加密。

可选地，确定模块具体用于：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；

令所有已标记样本对应的第一差值之和达到最小以确定关联关系。

可选地，获取模块还用于：获取每个领域中各个待标记样本之间的相似度权重；其中，相似度权重用于衡量实例数据之间的相似度；获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值；

计算模块，还用于计算每个领域中各个待标记样本的第二数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；

则确定模块具体用于：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定关联关系。

更进一步地，该装置还包括：校正模块，用于校正关联关系，并将校正后的关联关系作为估计的新的关联关系；直到校正次数超过预设值，则停止；或者，直到所有的关联关系收敛，则停止。

第四方面，本发明实施例提供一种信息确定装置，该装置基于N个领域，N为大于或者等于2的整数，每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，包括：

估计模块，用于根据待标记样本的特征向量估计待预测属性信息的概率分布函数，其中待标记样本为包括至少一个待预测属性信息的样本；

分解模块，用于将概率分布函数分解为与N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；

获取模块，用于获取每个领域中每个已标记样本的特征子向量代入对应的子函数得到的第一数值；

计算模块，用于基于公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率，已标记样本为包括的所有属性信息为已知属性信息的样本；

确定模块，用于根据所有已标记样本的待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数；

确定模块，还用于根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。

进一步地，该计算模块具体用于：基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率；其中，N个领域中采用相同加密算法对公共属性信息加密。

可选地，确定模块具体用于：若已标记样本的待预测属性信息相对应的属性信息对应有m个特定属性信息，m为大于或者等于2的正整数；针对每个已标记样本的每个特定属性信息，若待预测属性信息相对应的属性信息实际为特定属性信息，则计算概率与1的第一差值，否则，则计算概率与0的第一差值；令所有第一差值之和达到最小以确定概率分布函数。

可选地，获取模块，还用于：获取每个领域中各个待标记样本之间的相似度权重；其中，相似度权重用于衡量实例数据之间的相似度；获取每个领域中每个待标记样本的特征子向量代入对应的子函数得到的第二数值；计算模块，还用于计算每个领域中各个待标记样本的数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；则确定模块具体用于：针对每个已标记样本的每个特定属性信息，若待预测属性信息相对应的属性信息实际为特定属性信息，则计算概率与1的第一差值，否则，则计算概率与0的第一差值；根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定概率分布函数。

更进一步的，该装置还包括：校正模块，用于校正概率分布函数，并将校正后的概率分布函数作为估计的新的概率分布函数；直到校正次数超过预设值，则停止；或者，直到所有的概率分布函数收敛，则停止。

第五方面，本发明实施例提供一种信息确定装置，装置基于N个领域，N为大于或者等于2的整数，每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将样本所包括的部分或者全部的已知属性信息生成样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同。所述信息确定装置包括：处理器，用于存储所述处理器的可执行指令的存储器；

其中，所述处理器执行存储器存储的可执行指令，使得所述信息确定装置执行上述第一方面及其细化的方法，例如执行以下方法步骤：

根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定概率分布函数；

第六方面，本发明实施例提供一种信息确定装置，装置基于N个领域，N为大于或者等于2的整数，每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将样本所包括的部分或者全部的已知属性信息生成样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同。所述信息确定装置包括：处理器，用于存储所述处理器的可执行指令的存储器；

其中，所述处理器执行存储器存储的可执行指令，使得所述信息确定装置执行上述第二方面及其细化的方法，例如执行以下方法步骤：

基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率，已标记样本为包括的所有属性信息为已知属性信息的样本；

本发明实施例提供一种信息确定方法及装置，该方法包括：估计待标记样本的特征向量与待预测属性信息之间的关联关系；将关联关系分解为与所述N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值；基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息；所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息；根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系。由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息，即无需知道每个领域的属性信息，而是从各个领域获取计算结果，通过公共属性信息实现对同一用户的计算结果进行进一步计算，最后确定待预测属性信息，从而保证不同领域数据之间的保密性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种信息确定方法的流程图；

图2为本发明一实施例提供的确定关联关系的方法流程图；

图3为本发明另一实施例提供的一种信息确定方法的流程图；

图4为本发明一实施例提供的一种信息确定装置的结构示意图；

图5为本发明另一实施例提供的一种信息确定装置的结构示意图；

图6为本发明再一实施例提供的一种信息确定装置的结构示意图；

图7为本发明又一实施例提供的一种信息确定装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中基于数据融合的数据分析过程，无法保证不同领域数据之间的保密性的问题，本发明提供一种信息确定方法及装置。

图1为本发明一实施例提供的一种信息确定方法的流程图，该方法适用于跨领域的数据分析场景，该方法基于N个领域，N为大于或者等于2的整数，N个领域之间具有独立性，N个领域即为N个数据中心，比如可以是银行数据中心或者是移动运营商数据中心，每个数据中心包括至少一台智能终端(例如服务器)，该智能终端用于进行相应的数据处理；该方法的执行主体为计算机、平板电脑、手机、服务器等智能终端，该方法的执行主体可以是N个领域中的任一个领域内的智能终端(例如服务器)，也可以是不属于任何一个领域的智能终端(例如服务器)。每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，其中N个领域之间只能进行公共属性信息的交互，其中，N个领域之间相同的属性信息都可以作为公共属性信息，比如：用户的姓名、身份证号等。同一用户在N个领域中的实例数据组成一个样本，若样本的所有属性信息为已知属性信息，则该样本被称为已标记样本，否则，被称为待标记样本，将该样本所包括的部分或者全部的已知属性信息生成样本的特征向量，即样本的特征向量是由样本所包括的部分或者全部的已知属性信息所组成，每个样本的特征向量所包括的已知属性信息个数相同。本发明基于跨领域的数据分析，即为本发明旨在通过已标记样本内部的数据关系和待标记样本的已知属性信息来确定待标记样本的待预测属性信息。

具体地，假设该方法涉及两个领域，分别为移动运营商和银行。

用户A在移动运营商的实例数据：{张三、139***0000、11月的手机费为100元，其中话费50元，流量费50元}，而用户A在银行的实例数据：{张三、133***0000、业务类型：理财产品1、该理财产品1涉及金额8万、男、年龄}，其中用户A的所有实例数据组成一个待标记样本，所涉及的年龄为待预测属性信息。

用户B在移动运营商的实例数据：{李四、139***0001、11月的手机费为78元，其中话费30元，流量费48元}，而用户B在银行的实例数据：{李四、139***0000、业务类型：理财产品2、该理财产品2涉及金额5万、女、40}，其中用户B的所有实例数据组成一个已标记样本。

……

用户m在移动运营商的实例数据：{王五、139***0010、11月的手机费为50元，其中话费30元，流量费10元}，而用户m在银行的实例数据：{王五、139***0010、业务类型：存款、涉及金额2000元、女、50}，其中用户M的所有实例数据组成一个已标记样本。

假设特征向量为{姓名、手机号、消费信息，业务类型、该业务类型涉及金额}，通过已标记样本内部的数据关系和待标记样本的已知属性信息来确定待标记样本的待预测属性信息。

该方法具体包括如下流程：

S101：估计待标记样本的特征向量与待预测属性信息之间的关联关系；

具体地，首先，确定消费信息数值越大，那么年龄则越小，即消费信息与年龄呈反比，其次，业务类型趋向于理财产品，则年龄多集中在30-45岁左右，当年龄大于40岁，业务类型涉及金额越大则年龄越小，当年龄小于40岁，业务类型涉及金额越大则年龄也越大，即业务类型涉及金额与年龄之间符合二次函数的关系。

因此，估计关联关系为：

F (X^{i}) = - {ax}_{1}^{i} + {bx}_{21}^{i} + {cx}_{22}^{i} + {dx}_{23}^{i} - e {(x_{3}^{i} - 40)}^{2} + f,

其中，F表示关联关系，特征向量为表示用户i在移动运营商的消费信息，表示用户i在银行的业务类型为理财产品1，表示用户i在银行的业务类型为理财产品2，表示业务类型为存款，表示业务类型涉及金额，其中a、b、c、d、e、f都为正整数，实际上业务类型还可以更多，上述公式只是以三个业务类型为例，假设根据已标记样本估计购买理财产品1的用户i年龄小于购买理财产品2的用户年龄，并且购买理财产品2的用户i年龄小于选择存款的用户年龄，那么可以设置b>c>d。

S102：将关联关系分解为与N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；

S103：获取每个领域中每个所已标记样本的特征子向量代入对应的子关联关系得到的第一数值；

结合步骤S102和步骤S103，其中，由于样本的特征向量是由样本所包括的部分或者全部的已知属性信息所组成，则可以确定样本的特征向量在每个领域中所包括的已知属性信息，将每个领域所包括的这些已知属性信息称为该样本的子特征向量。相应地，根据样本的特征向量在每个领域中所包括的已知属性信息，可以将每个领域中所包括的已知属性信息需要代入关联关系中的部分称为子关联关系。接着上述例子，将F分解为两个子关联关系，分别为：

F_{1} (X_{1}^{i}) = - {ax}_{1}^{i}, F_{2} (X_{2}^{i}) = {bx}_{21}^{i} + {cx}_{22}^{i} + {dx}_{23}^{i} - e {(x_{3}^{i} - 40)}^{2} + f,

对应的特征向量也被分解为两个特征子向量，分别为：和假设已标记样本的特征向量为X^j，特征子向量分别为其中得到两个第一数值为：和

S104：基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息；该估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息；

进一步地，还可以基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息，其中，N个领域中采用相同加密算法对公共属性信息加密。由于N个领域中采用相同加密算法对公共属性信息加密，因此，同一个公共属性信息加密后的结果一定相同，本发明实施例可以基于加密后的公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息F(X')，比如：该估计的属性信息为用户B的年龄，或者用户M的年龄。

S105：根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定所述关联关系；

S106：根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。

一种可选方式，步骤S105包括：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；令所有所述已标记样本对应的第一差值之和达到最小以确定所述关联关系。

具体地，其中y^j表示估计的属性信息对应的已知属性信息，F(X^j)-y^j为第一差值，L表示所有已标记样本的集合。最后令达到最小，确定关联关系F。

另一种可选方式：图2为本发明一实施例提供的确定关联关系的方法流程图，如图2所示，该方法包括：

S201：获取每个领域中各个待标记样本之间的相似度权重；其中，所述相似度权重用于衡量所述实例数据之间的相似度；

各个待标记样本之间的相似度权重通过余弦相似度算法来确定。具体地，比如：针对某个领域，确定两个待标记样本对应的子特征向量，然后计算这两个子特征向量的夹角的余弦值来估计它们之间的相似度权重。

S202：获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值；

假设待标记样本的特征向量为X^q，特征子向量分别为其中得到两个第二数值为：和

S203：计算每个领域中各个待标记样本的第二数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；

S204：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；

S205：根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述关联关系。

具体地，结合S203-S205进行说明：

\min \underset{j &Element; L}{Σ} M {(F (X^{j}) - y^{j})}^{2} + \underset{q 1, q 2 &Element; R}{Σ} {aw}_{q 1, q 2} (F_{1} (X_{1}^{q 1}) - F_{1} (X_{1}^{q 2})) + \underset{q 1, q 2 &Element; R}{Σ} {bw}_{q 1, q 2} (F_{2} (X_{2}^{q 1}) - F_{2} (X_{2}^{q 2}))

其中，R表示所有待标记样本的集合，M尽可能大。w_q1,q2表示在F₁对应领域中，已标记样本q1与q2之间的相似度权重，ω_q1,q2表示在F₂对应领域中，已标记样本q1与q2之间的相似度权重。都是第二差值。最后确定关联关系F。

进一步地，所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系之后，还包括：

校正所述关联关系，并将校正后的关联关系作为估计的新的关联关系；

直到校正次数超过预设值，则停止；或者，

直到所有的关联关系收敛，则停止。

本发明实施例提供一种信息确定方法，包括：估计待标记样本的特征向量与待预测属性信息之间的关联关系；将关联关系分解为与所述N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值；基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息；所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息；根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系。由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息，即无需知道每个领域的属性信息，而是从各个领域获取计算结果，通过公共属性信息实现对同一用户的计算结果进行进一步计算，最后确定待预测属性信息，从而保证不同领域数据之间的保密性。

图3为本发明另一实施例提供的一种信息确定方法的流程图，该方法适用于跨领域的数据分析场景，该方法的执行主体为计算机、平板电脑、手机等智能终端，所述方法基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，若所述样本的所有属性信息为已知属性信息，则所述样本被称为已标记样本，否则，被称为待标记样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，其中该方法包括：

S301：根据待标记样本的特征向量估计待预测属性信息的概率分布函数；

用户A在移动运营商的实例数据：{张三、139***0000、11月的手机费为100元，其中话费50元，流量费50元}，而用户A在银行的实例数据：{张三、133***0000、业务类型：理财产品1、该理财产品1涉及金额8万、男}，其中用户A的所有实例数据组成一个待标记样本，所涉及的性别为待预测属性信息。

用户B在移动运营商的实例数据：{李四、139***0001、11月的手机费为78元，其中话费30元，流量费48元}，而用户B在银行的实例数据：{李四、139***0000、业务类型：理财产品2、该理财产品2涉及金额5万、女}，其中用户B的所有实例数据组成一个已标记样本。

……

用户m在移动运营商的实例数据：{王五、139***0010、11月的手机费为50元，其中话费30元，流量费10元}，而用户m在银行的实例数据：{王五、139***0010、业务类型：存款、涉及金额2000元、女}，其中用户M的所有实例数据组成一个已标记样本。

假设根据特征向量确定性别的概率分布函数为一个离散函数，函数值为0或者1,0代表性别为男，1代表性别为女。

S302：将概率分布函数分解为与N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；

S303：获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值；

S304：基于公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率；

进一步地，可以基于加密后的公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率；其中，N个领域中采用相同加密算法对公共属性信息加密。通过这种加密方式可以提高数据之间的保密性。

S305：根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为特定属性信息的情况确定概率分布函数；

S306：根据确定的概率分布函数和待标记样本的特征向量确定待标记样本的待预测属性信息。

结合本发明实施例，该特定属性信息包括：男性和女性。

一种可选方式，所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数，包括：

若所述已标记样本的所述待预测属性信息相对应的属性信息对应有m个特定属性信息，所述m为大于或者等于2的正整数；

针对每个所述已标记样本的每个所述特定属性信息，若所述待预测属性信息相对应的属性信息实际为所述特定属性信息，则计算所述概率与1的第一差值，否则，则计算所述概率与0的第一差值；

令所有第一差值之和达到最小以确定所述概率分布函数。

另一种可选方式，还包括：

获取每个领域中各个待标记样本之间的相似度权重；其中，所述相似度权重用于衡量所述实例数据之间的相似度；

获取每个领域中每个所述待标记样本的特征子向量代入对应的子函数得到的第二数值；

计算每个领域中各个待标记样本的数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；

则所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数，包括：

可选地，根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述概率分布函数。

可选地，根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和以及所述概率与预设值之差确定所述概率分布函数。所有的用户的预设值构成一个先验矩阵。

进一步地，所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数之后，还包括：

校正所述概率分布函数，并将校正后的概率分布函数作为估计的新的概率分布函数；

直到校正次数超过预设值，则停止；或者，

直到所有的概率分布函数收敛，则停止。

本发明实施例提供一种信息确定方法，包括：根据待标记样本的特征向量估计待预测属性信息的概率分布函数；将所述概率分布函数分解为与所述N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值；基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率；根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数。由于该过程中基于公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率，即无需知道每个领域的属性信息，而是从各个领域获取计算结果，通过公共属性信息实现对同一用户的计算结果进行进一步计算，最后确定待预测属性信息，从而保证不同领域数据之间的保密性。

图4为本发明一实施例提供的一种信息确定装置的结构示意图，该装置基于N个领域，N为大于或者等于2的整数，N个领域之间具有独立性，N个领域即为N个数据中心，比如可以是银行数据中心或者是移动运营商数据中心，每个数据中心包括至少一台智能终端，该智能终端用于进行相应的数据处理，该装置为计算机、平板电脑、手机等智能终端，它可以是N个领域中的任一个领域内的智能终端，也可以是不属于任何一个领域的智能终端。每个领域包括多个用户的实例数据，每个实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，其中N个领域之间只能进行公共属性信息的交互，其中，N个领域之间相同的属性信息都可以作为公共属性信息，比如：用户的姓名、身份证号等。同一用户在N个领域中的实例数据组成一个样本，若样本的所有属性信息为已知属性信息，则该样本被称为已标记样本，否则，被称为待标记样本，将该样本所包括的部分或者全部的已知属性信息生成样本的特征向量，即样本的特征向量是由样本所包括的部分或者全部的已知属性信息所组成，每个样本的特征向量所包括的已知属性信息个数相同。该装置包括如下模块；

估计模块41，用于估计待标记样本的特征向量与待预测属性信息之间的关联关系，其中待标记样本为包括至少一个待预测属性信息的样本；

分解模块42，用于将关联关系分解为与N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与N个领域一一对应的特征子向量；

获取模块43，用于获取每个领域中每个已标记样本的特征子向量代入对应的子关联关系得到的第一数值；

计算模块44，用于基于公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息；估计的属性信息为根据关联关系和已标记样本的特征向量估计已标记样本中与待预测属性信息对应的属性信息，已标记样本为包括的所有属性信息为已知属性信息的样本；

确定模块45，用于根据所有已标记样本的估计的属性信息对应的已知属性信息和估计的属性信息确定所述关联关系；

确定模块45，还用于根据确定的关联关系和待标记样本的特征向量确定待标记样本的待预测属性信息。

进一步地，计算模块44具体用于：基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到估计的属性信息，其中，N个领域中采用相同加密算法对公共属性信息加密。

更进一步地，确定模块45具体用于：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；令所有已标记样本对应的第一差值之和达到最小以确定关联关系。

可选地，获取模块43还用于：获取每个领域中各个待标记样本之间的相似度权重；其中，相似度权重用于衡量实例数据之间的相似度；获取每个领域中每个待标记样本的特征子向量代入对应的子关联关系得到的第二数值；计算模块44还用于计算每个领域中各个待标记样本的第二数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；则确定模块45具体用于：针对每个已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定关联关系。

进一步地，该装置还包括：校正模块46，用于校正关联关系，并将校正后的关联关系作为估计的新的关联关系；直到校正次数超过预设值，则停止；或者，直到所有的关联关系收敛，则停止。

本实施例提供的信息确定装置，可以用于执行图1、图2所示实施例中的方法步骤，其实现原理和技术效果类似，此处不再赘述。

图5为本发明另一实施例提供的一种信息确定装置的结构示意图，该装置基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，该装置包括：

估计模块51，用于根据待标记样本的特征向量估计待预测属性信息的概率分布函数，其中所述待标记样本为包括至少一个待预测属性信息的样本；

分解模块52，用于将所述概率分布函数分解为与所述N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；

获取模块53，用于获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值；

计算模块54，用于基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率，所述已标记样本为包括的所有属性信息为已知属性信息的样本；

确定模块55，用于根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数；

确定模块55，还用于根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。

进一步地，计算模块54具体用于：基于加密后的公共属性信息将同一用户在N个领域得到的第一数值求和得到已标记样本中与待预测属性信息相对应的属性信息为特定属性信息的概率；其中，N个领域中采用相同加密算法对公共属性信息加密。

可选地，确定模块55具体用于：若已标记样本的待预测属性信息相对应的属性信息对应有m个特定属性信息，所述m为大于或者等于2的正整数；针对每个已标记样本的每个特定属性信息，若待预测属性信息相对应的属性信息实际为特定属性信息，则计算概率与1的第一差值，否则，则计算概率与0的第一差值；令所有第一差值之和达到最小以确定所述概率分布函数。

可选地，获取模块53，还用于：获取每个领域中各个待标记样本之间的相似度权重；其中，所述相似度权重用于衡量所述实例数据之间的相似度；获取每个领域中每个所述待标记样本的特征子向量代入对应的子函数得到的第二数值；所述计算模块54，还用于计算每个领域中各个待标记样本的数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；则所述确定模块55具体用于：针对每个所述已标记样本的每个所述特定属性信息，若所述待预测属性信息相对应的属性信息实际为所述特定属性信息，则计算所述概率与1的第一差值，否则，则计算所述概率与0的第一差值；根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述概率分布函数。

更进一步地，该装置还包括：校正模块56，用于校正所述概率分布函数，并将校正后的概率分布函数作为估计的新的概率分布函数；直到校正次数超过预设值，则停止；或者，直到所有的概率分布函数收敛，则停止。

本实施例提供的信息确定装置，可以用于执行图3所示实施例中的方法步骤，其实现原理和技术效果类似，此处不再赘述。

图6为本发明再一实施例提供的一种信息确定装置的结构示意图，所述装置基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，图6所示的信息确定装置包括：处理器61；用于存储所述处理器的可执行指令的存储器62。所述处理器61执行存储器62存储的可执行指令，使得信息确定装置执行图1或图2所示的方法步骤，例如执行以下方法步骤，包括：根据待标记样本的特征向量估计待预测属性信息的概率分布函数，其中所述待标记样本为包括至少一个待预测属性信息的样本；将所述概率分布函数分解为与所述N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值；基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率，所述已标记样本为包括的所有属性信息为已知属性信息的样本；根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数；根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。

图7为本发明又一实施例提供的一种信息确定装置的结构示意图，所述装置基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同。图7所示的信息确定装置包括：处理器71，用于存储所述处理器的可执行指令的存储器72。其中，所述处理器71执行存储器72存储的可执行指令，使得信息确定装置执行图3所示的方法步骤，例如执行以下方法步骤，包括：根据待标记样本的特征向量估计待预测属性信息的概率分布函数，其中所述待标记样本为包括至少一个待预测属性信息的样本；将所述概率分布函数分解为与所述N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值；基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率，所述已标记样本为包括的所有属性信息为已知属性信息的样本；根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数；根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。

本发明实施例还提供一种计算机程序产品，包括计算机可读的存储介质，该存储介质用于存储计算机可执行指令，该计算机可执行指令包括执行上述方法步骤的指令。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种信息确定方法，所述方法基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，其特征在于，包括：

估计待标记样本的特征向量与待预测属性信息之间的关联关系，其中所述待标记样本为包括至少一个待预测属性信息的样本；

将所述关联关系分解为与所述N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；

获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值；

基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息；所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息，所述已标记样本为包括的所有属性信息为已知属性信息的样本；

根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系；

根据确定的关联关系和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息，包括：

基于加密后的所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息，其中，所述N个领域中采用相同加密算法对所述公共属性信息加密。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系，包括：

针对每个所述已标记样本，计算估计的属性信息对应的已知属性信息与估计的属性信息的第一差值；

令所有所述已标记样本对应的第一差值之和达到最小以确定所述关联关系。

4.根据权利要求1或2所述的方法，其特征在于，还包括：

获取每个领域中每个所述待标记样本的特征子向量代入对应的子关联关系得到的第二数值；

计算每个领域中各个待标记样本的第二数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；

则所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系，包括：

根据所有已标记样本对应的第一差值之和与每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述关联关系。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系之后，还包括：

直到校正次数超过预设值，则停止；或者，

直到所有的关联关系收敛，则停止。

6.一种信息确定方法，所述方法基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，其特征在于，包括：

根据待标记样本的特征向量估计待预测属性信息的概率分布函数，其中所述待标记样本为包括至少一个待预测属性信息的样本；

将所述概率分布函数分解为与所述N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；

获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值；

基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率，所述已标记样本为包括的所有属性信息为已知属性信息的样本；

根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数；

根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。

7.根据权利要求6所述的方法，其特征在于，基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率，包括：

基于加密后的所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率；其中，所述N个领域中采用相同加密算法对所述公共属性信息加密。

8.根据权利要求6或7所述的方法，其特征在于，所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数，包括：

令所有第一差值之和达到最小以确定所述概率分布函数。

9.根据权利要求6或7所述的方法，其特征在于，还包括：

根据所有所述已标记样本对应的第一差值之和与所述每个领域中的所有第二差值与对应的相似度权重的乘积之和确定所述概率分布函数。

10.根据权利要求6-9任一项所述的方法，其特征在于，所述根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数之后，还包括：

直到校正次数超过预设值，则停止；或者，

直到所有的概率分布函数收敛，则停止。

11.一种信息确定装置，所述装置基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，其特征在于，包括：

估计模块，用于估计待标记样本的特征向量与待预测属性信息之间的关联关系，其中所述待标记样本为包括至少一个待预测属性信息的样本；

分解模块，用于将所述关联关系分解为与所述N个领域一一对应的N个子关联关系，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；

获取模块，用于获取每个领域中每个所述已标记样本的特征子向量代入对应的子关联关系得到的第一数值；

计算模块，用于基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到估计的属性信息；所述估计的属性信息为根据所述关联关系和已标记样本的特征向量估计已标记样本中与所述待预测属性信息对应的属性信息，所述已标记样本为包括的所有属性信息为已知属性信息的样本；

确定模块，用于根据所有已标记样本的估计的属性信息对应的已知属性信息和所述估计的属性信息确定所述关联关系；

所述确定模块，还用于根据确定的关联关系和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。

12.根据权利要求11所述的装置，其特征在于，所述计算模块具体用于：

13.根据权利要求11或12所述的装置，其特征在于，所述确定模块具体用于：

14.根据权利要求11或12所述的装置，其特征在于，

所述获取模块，还用于：

所述计算模块，还用于计算每个领域中各个待标记样本的第二数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；

则所述确定模块具体用于：

15.根据权利要求11-14任一项所述的装置，其特征在于，还包括：

校正模块，用于校正所述关联关系，并将校正后的关联关系作为估计的新的关联关系；

直到校正次数超过预设值，则停止；或者，

直到所有的关联关系收敛，则停止。

16.一种信息确定装置，所述装置基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同，其特征在于，包括：

估计模块，用于根据待标记样本的特征向量估计待预测属性信息的概率分布函数，其中所述待标记样本为包括至少一个待预测属性信息的样本；

分解模块，用于将所述概率分布函数分解为与所述N个领域一一对应的N个子函数，并将每个样本的特征向量分解为与所述N个领域一一对应的特征子向量；

获取模块，用于获取每个领域中每个所述已标记样本的特征子向量代入对应的子函数得到的第一数值；

计算模块，用于基于所述公共属性信息将同一用户在所述N个领域得到的第一数值求和得到已标记样本中与所述待预测属性信息相对应的属性信息为特定属性信息的概率，所述已标记样本为包括的所有属性信息为已知属性信息的样本；

确定模块，用于根据所有已标记样本的所述待预测属性信息相对应的属性信息为特定属性信息的概率与实际是否为所述特定属性信息的情况确定所述概率分布函数；

所述确定模块，还用于根据确定的概率分布函数和所述待标记样本的特征向量确定所述待标记样本的待预测属性信息。

17.根据权利要求16所述的装置，其特征在于，所述计算模块具体用于：

18.根据权利要求16或17所述的装置，其特征在于，所述确定模块具体用于：

令所有第一差值之和达到最小以确定所述概率分布函数。

19.根据权利要求16或17所述的装置，其特征在于，

所述获取模块，还用于：

所述计算模块，还用于计算每个领域中各个待标记样本的数值的第二差值，并对每个领域中的所有第二差值与对应的相似度权重的乘积求和；

则所述确定模块具体用于：

20.根据权利要求16-19任一项所述的装置，其特征在于，还包括：

校正模块，用于校正所述概率分布函数，并将校正后的概率分布函数作为估计的新的概率分布函数；

直到校正次数超过预设值，则停止；或者，

直到所有的概率分布函数收敛，则停止。

21.一种信息确定装置，所述装置基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同；其特征在于，所述信息确定装置包括：处理器，用于存储所述处理器的可执行指令的存储器；

其中，所述处理器执行存储器存储的可执行指令，使得所述信息确定装置执行权利要求1至5任一项所述的方法。

22.一种信息确定装置，所述装置基于N个领域，N为大于或者等于2的整数，每个所述领域包括多个用户的实例数据，每个所述实例数据包括多个属性信息，同一用户在N个领域中的实例数据存在至少一个公共属性信息，同一用户在N个领域中的实例数据组成一个样本，将所述样本所包括的部分或者全部的已知属性信息生成所述样本的特征向量，每个样本的特征向量所包括的已知属性信息个数相同；其特征在于，所述信息确定装置包括：处理器，用于存储所述处理器的可执行指令的存储器；

其中，所述处理器执行存储器存储的可执行指令，使得所述信息确定装置执行权利要求6至10任一项所述的方法。