CN110517083A

CN110517083A - 一种确定用户属性信息的方法及装置

Info

Publication number: CN110517083A
Application number: CN201910795608.0A
Authority: CN
Inventors: 王云
Original assignee: Miaozhen Systems Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd; Miaozhen Systems Information Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-29

Abstract

本申请提供了一种确定用户属性信息的方法及装置，包括：分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值；针对每个数据源，根据从该数据源处获取到每个参考用户的目标类别的第一实际属性值和存储在本地的所述参考用户在目标类别下的标准属性值的重合数量，确定每个数据源在所述目标类别的可信度；分别从每个数据源获取目标用户向不同数据源上传的目标类别的第二实际属性值；将数据源在所述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在所述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值。

Description

一种确定用户属性信息的方法及装置

技术领域

本申请涉及数据优化领域，具体而言，涉及一种确定用户属性信息的方法及装置。

背景技术

目前，随着互联网的发展，广告宣传也趋向数字化，数字媒体广告流量监测在企业或品牌的数字广告宣传方面起到了导向的作用。

现有技术中对于数字媒体广告流量数据的监测是第三方根据自身所自建的样本库来进行，第三方的自建样本库的总体样本量有限，并且获得的结果数据由于只使用了第三方自己的样本，往往与用户手中的数据有较大的差异，因此结果数据缺乏可信度。

发明内容

有鉴于此，本申请的目的在于提供一种确定用户属性信息的方法及装置，用于解决现有技术中数字媒体广告流量监测可信度低的问题。可以通过从覆盖细分市场的多个数据源获取参考用户，与本地数据进行比对得到各数据源下的目标类别的可信度，再通过对目标用户的目标类别在各数据源下的属性值进行优化计算，得到目标用户的目标类别的优化属性值，提高了通过数字媒体广告流量监测得到的目标用户的属性值的可信度。

第一方面，本申请实施例提供了一种确定用户属性信息的方法，该方法包括：

分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值；

针对每个数据源，根据从该数据源处获取到每个参考用户的目标类别的第一实际属性值和存储在本地的所述参考用户在目标类别下的标准属性值的重合数量，确定每个数据源在所述目标类别的可信度；

分别从每个数据源获取目标用户向不同数据源上传的目标类别的第二实际属性值；

将数据源在所述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在所述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值。

根据第一方面，本申请实施例提供了第一方面的第一种可能的实施方案，其中，在分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值之前，还包括：

根据不同的数据源的市场份额信息，确定从每个数据源获取的样本用户的数量；所述样本用户包含参考用户和目标用户；

从每个数据源处获取对应的所述数量的预设倍数的待选样本用户，再进行随机抽样选出对应数量的样本用户，以得到每个数据源的样本用户。

根据第一方面的第一种可能的实施方案，本申请实施例提供了第一方面的第二种可能的实施方案，其中，在从每个数据源处获取对应的所述数量的预设倍数的待选样本用户，再进行随机抽样选出对应数量的样本用户，以得到每个数据源的样本用户之后，还包括：

针对每个数据源，根据各数据源的样本用户和存储在本地的基础用户，得到各数据源的样本用户和本地的基础用户的共有用户，将所述共有用户作为参考用户。

根据第一方面，本申请实施例提供了第一方面的第三种可能的实施方案，其中，在将数据源在所述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在所述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值之后，还包括：

根据所述目标用户的多个目标类别的优化属性值，生成目标用户的优化属性值表；

根据每个目标用户的优化属性值表，得到目标属性值组对应的用户比例。

第二方面，本申请实施例提供了一种确定用户属性信息的装置，该装置包括：

第一获取模块，用于分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值；

第一计算模块，用于针对每个数据源，根据从该数据源处获取到每个参考用户的目标类别的第一实际属性值和存储在本地的所述参考用户在目标类别下的标准属性值的重合数量，确定每个数据源在所述目标类别的可信度；

第二获取模块，用于分别从每个数据源获取目标用户向不同数据源上传的目标类别的第二实际属性值；

第二计算模块，用于将数据源在所述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在所述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值。

根据第二方面，本申请实施例提供了第二方面的第一种可能的实施方案，其中，在第一获取模块之前，还包括：

数量模块，用于根据不同的数据源的市场份额信息，确定从每个数据源获取的样本用户的数量；所述样本用户包含参考用户和目标用户；

抽样模块，用于从每个数据源处获取对应的所述数量的预设倍数的待选样本用户，再进行随机抽样选出对应数量的样本用户，以得到每个数据源的样本用户。

根据第二方面的第一种可能的实施方案，本申请实施例提供了第二方面的第二种可能的实施方案，其中，第一计算模块包括：

筛选模块，用于针对每个数据源，根据各数据源的样本用户和存储在本地的基础用户，得到各数据源的样本用户和本地的基础用户的共有用户，将所述共有用户作为参考用户。

根据第二方面，本申请实施例提供了第二方面的第三种可能的实施方案，其中，在第二计算模块之后，还包括：

生成模块，用于根据所述目标用户的多个目标类别的优化属性值，生成目标用户的优化属性值表；

应用模块，用于根据每个目标用户的优化属性值表，得到目标属性值组对应的用户比例。

第三方面，本申请实施例提供了一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面及其可能的实施方案任一所述的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面及其可能的实施方案任一所述的方法的步骤。

本申请实施例提出的一种确定用户属性信息的方法及装置，通过从覆盖细分市场的多个数据源获取参考用户，与本地数据进行比对得到各数据源下的目标类别的可信度，再通过对目标用户的目标类别在各数据源下的属性值进行优化计算，得到目标用户的目标类别的优化属性值，提高了通过数字媒体广告流量监测得到的目标用户的属性值的可信度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种确定用户属性信息的方法的流程示意图；

图2为本申请实施例提供的一种确定用户属性信息的方法的示意图；

图3为本申请实施例提供的一种确定用户属性信息的装置的结构示意图；

图4为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种确定用户属性信息的方法，如图1所示，包括以下步骤：

步骤S101、分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值；

步骤S102、针对每个数据源，根据从该数据源处获取到每个参考用户的目标类别的第一实际属性值和存储在本地的上述参考用户在目标类别下的标准属性值的重合数量，确定每个数据源在上述目标类别的可信度；

步骤S103、分别从每个数据源获取目标用户向不同数据源上传的目标类别的第二实际属性值；

步骤S104、将数据源在上述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在上述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值。

针对数字媒体广告监测，需要通过对多个数字媒体方的用户属性信息进行数据处理以得到较为中立的、可信度高的优化后的用户属性信息。为了对每个数字媒体方的可信度做公平的考量，需要先在本地建立一个基础的用户库，再进行目标类别的用户属性值的优化计算。

上述数据源也就是数字媒体方，从数字媒体方获取多个参考用户的目标类别下的第一实际属性值，也就是每个参考用户在该数字媒体方所记录的上述目标类别的属性值，例如：目标类别为收入，A用户的收入为1000～2000，B用户的收入为2000～3000，C用户的收入为3000～4500，其中的收入区间就是在该数字媒体方A用户、B用户、C用户所记录的自身收入的属性值。

这里的参考用户是指一类用户，而不是单指一个用户，为了进行下面各数据源在目标类别的可信度，需要从各数据源获取大量参考用户在目标类别的第一实际属性值，进行第一实际属性值与本地存储的同用户的标准属性值的重合数量的统计，以得到各数据源针对该目标类别的可信度。例如：A数据源的参考用户数量为10000，参考用户的收入的第一实际属性值与本地存储的同用户的收入的标准属性值的重合数量为2000，那么，A数据源在收入这一类别的可信度为20％。

接着从各数据源获取目标用户的目标类别的第二实际属性值，这里的目标用户也是指一类用户。将上一步得到的各数据源在该目标类别的可信度作为权值来进行属性值的优化或验证，例如：如图2所示的表格中，是6个数字媒体(数据源)在收入这一类别针对同一用户的收入属性值(A-D的4个档位)的优化，在任一媒体中，将该用户收入属性值对应的取值记为1，得到6个数字媒体下的该用户的收入属性值在加权后得到的该用户在收入这一项的优化属性值为B档的1000～3000。

进一步地，各数据源所提供的目标用户可能只有部分重叠，那么在优化该类目标用户时，只需考虑有该目标用户的在目标类别的第二实际属性值的数据源即可。

在一可选的实施例中，在步骤S101、分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值之前，还包括：

步骤105、根据不同的数据源的市场份额信息，确定从每个数据源获取的样本用户的数量；上述样本用户包含参考用户和目标用户。

在从各数据源获取用户的目标类别的第一实际属性值之前，先要确定用户属性信息所需的用户总量，根据统计学保证95％可信度的误差样本量应为380，那么用户总量应为：目标城市数×用户各类别下的属性值维度数的乘积×380。例如：一次用户属性信息确定计算，用户覆盖全国(333个地级行政区+4个直辖市)，只对用户的性别和年龄段两种类别进行优化，性别的属性值维度为2(男、女)，年龄段的属性值维度为12，那么，该次确定用户属性信息所需的用户总量为337×2×12×380＝3073440。

在获得了确定用户属性信息所需的用户总量后，根据各数据源的媒体市场份额，计算各数据源提供的用户在该次计算中所需的用户数量，即：A数据源在该次计算中所需的用户数量＝用户总量×A数据源的媒体市场份额。

步骤106、从每个数据源处获取对应的上述数量的预设倍数的待选样本用户，再进行随机抽样选出对应数量的样本用户，以得到每个数据源的样本用户。

为了保证从各数据源获取的样本用户的一般性，在从各数据源获取样本用户时，先获取预设倍数的待选样本用户，例如，预设倍数为5，那么从各数据源获取的待选样本用户都为需要从各数据源获取的样本用户的数量的5倍。然后从各数据源获取的待选样本用户中分别通过随机抽样的方法选出各数据源所需的样本用户。

在一可选的实施例中，在步骤106、在从每个数据源处获取对应的上述数量的预设倍数的待选样本用户，再进行随机抽样选出对应数量的样本用户，以得到每个数据源的样本用户之后，还包括：

步骤107、针对每个数据源，根据各数据源的样本用户和存储在本地的基础用户，得到各数据源的样本用户和本地的基础用户的共有用户，将上述共有用户作为参考用户。

通过各数据源的将样本用户与本地的已有的基础用户进行比对，得到各数据源的样本用户与本地的基础用户的共有用户，该部分样本用户是为了得到所属的数据源的可信度所需的参考用户。

在一可选的实施例中，在步骤S104、将数据源在上述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在上述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值之后，还包括：

步骤108、根据上述目标用户的多个目标类别的优化属性值，生成目标用户的优化属性值表；

步骤109、根据每个目标用户的优化属性值表，得到目标属性值组对应的用户比例。

一般来说，数字广告流量监测是需要对用户的多个属性类别进行监测，并根据多个属性类别的属性值筛选出所需的用户或用户比例。

通过对目标用户的多个目标类别的属性值进行优化后，重新生成各个目标用户的属性值表，再根据需求设定筛选条件，对目标用户进行筛选，以得到所需的用户，也就得到了该筛选条件对应的用户在目标用户中所占的比例。

本申请实施例还提供了一种确定用户属性信息的装置，如图3所示，该装置包括：

第一获取模块30，用于分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值；

第一计算模块31，用于针对每个数据源，根据从该数据源处获取到每个参考用户的目标类别的第一实际属性值和存储在本地的上述参考用户在目标类别下的标准属性值的重合数量，确定每个数据源在上述目标类别的可信度；

第二获取模块32，用于分别从每个数据源获取目标用户向不同数据源上传的目标类别的第二实际属性值；

第二计算模块33，用于将数据源在上述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在上述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值。

在一可选的实施例中，在第一获取模块30之前，还包括：

数量模块34，用于根据不同的数据源的市场份额信息，确定从每个数据源获取的样本用户的数量；上述样本用户包含参考用户和目标用户；

抽样模块35，用于从每个数据源处获取对应的上述数量的预设倍数的待选样本用户，再进行随机抽样选出对应数量的样本用户，以得到每个数据源的样本用户。

在一可选的实施例中，在抽样模块35之后，还包括：

筛选模块36，用于针对每个数据源，根据各数据源的样本用户和存储在本地的基础用户，得到各数据源的样本用户和本地的基础用户的共有用户，将上述共有用户作为参考用户。

在一可选的实施例中，在第二计算模块33之后，还包括：

生成模块37，用于根据上述目标用户的多个目标类别的优化属性值，生成目标用户的优化属性值表；

应用模块38，用于根据每个目标用户的优化属性值表，得到目标属性值组对应的用户比例。

对应于图1中的一种确定用户属性信息的方法，本申请实施例还提供了一种计算机设备400，如图4所示，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述一种确定用户属性信息的方法。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述一种确定用户属性信息的方法，解决了现有技术中数字媒体广告流量监测可信度低的问题。

对应于图1中的一种确定用户属性信息的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述一种确定用户属性信息的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述一种确定用户属性信息的方法，解决了现有技术中数字媒体广告流量监测可信度低的问题，本申请实施例提出的一种确定用户属性信息的方法及装置，通过从覆盖细分市场的多个数据源获取参考用户，与本地数据进行比对得到各数据源下的目标类别的可信度，再通过对目标用户的目标类别在各数据源下的属性值进行优化计算，得到目标用户的目标类别的优化属性值，提高了通过数字媒体广告流量监测得到的目标用户的属性值的可信度。

在本申请所提供的实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种确定用户属性信息的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在分别从不同的数据源处获取参考用户向不同数据源上传的在目标类别下的第一实际属性值之前，还包括：

3.根据权利要求2所述的方法，其特征在于，在从每个数据源处获取对应的所述数量的预设倍数的待选样本用户，再进行随机抽样选出对应数量的样本用户，以得到每个数据源的样本用户之后，还包括：

4.根据权利要求1所述的方法，其特征在于，在将数据源在所述目标类别的可信度作为权值，采用加权计算的方式，根据数据源在所述目标类别的可信度和目标用户向不同数据源上传的目标类别的实际属性值，计算目标用户的目标类别的优化属性值之后，还包括：

5.一种确定用户属性信息的装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，在第一获取模块之前，还包括：

7.根据权利要求6所述的装置，其特征在于，在抽样模块之后，还包括：

8.根据权利要求5所述的装置，其特征在于，在第二计算模块之后，还包括：

9.一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-4中任一项所述的方法的步骤。