CN107767155B - 一种评估用户画像数据的方法及系统 - Google Patents
一种评估用户画像数据的方法及系统 Download PDFInfo
- Publication number
- CN107767155B CN107767155B CN201610683111.6A CN201610683111A CN107767155B CN 107767155 B CN107767155 B CN 107767155B CN 201610683111 A CN201610683111 A CN 201610683111A CN 107767155 B CN107767155 B CN 107767155B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- dimension
- evaluation
- portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
- G06F7/08—Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0254—Targeted advertisements based on statistics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
- G06Q30/0256—User search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Human Resources & Organizations (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种评估用户画像数据的方法和系统。该方法获取用户画像数据集在至少一个第一维度上的分布信息;根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。
Description
技术领域
本申请涉及数据挖掘领域,特别地,涉及一种评估用户画像数据的方法及系统。
背景技术
相比传统的线下会员管理、问卷调查等,大数据技术使得企业能够通过互联网更便利地获取用户多方面的信息,更精准地了解用户的行为习惯、消费习惯等。通过大数据挖掘得出的用户画像可以应用在企业的精准营销和定向市场推广活动中。用户画像(UserPersona)是通过将收集到的用户信息分类并进行标签化,从而抽象得出的用户模型。用户画像可以包括用户各方面的信息所属的分类,例如,一个用户的用户画像可以包括女性、北京、80后、白领、爱看美剧、有孩子、喜欢兰蔻,等。
发明内容
本申请实施例提供了一种评估用户画像数据的方法和系统,可以利用样本数据对用户画像数据的准确度进行评估。
本申请实施例的一种评估用户画像数据的方法包括:
获取用户画像数据集在至少一个第一维度上的分布信息;
根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;
利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。
本申请实施例的一种评估用户画像数据的系统包括:
分布获取模块,用于获取用户画像数据集在至少一个第一维度上的分布信息;
样本提取模块,用于根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;
评估模块,用于利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。
本申请各实施例从样本数据集中选取与用户画像数据分布一致的评估数据,能够使得提取的评估数据对用户画像数据具有代表性,从而使评估结果更加客观、准确。
附图说明
图1为一种对用户画像数据进行评估的方法的流程图;
图2为一种从样本数据集中提取评估数据集的方法流程图;
图3为一种评估用户画像数据集中数据准确度的方法流程图;
图4为本发明实施例的评估用户画像数据的系统示意图。
具体实施方式
各实施例提供了一种对用户画像数据进行评估的方法,根据用户画像数据在某个或某些维度上的分布情况对样本数据进行筛选,从而得到与用户画像数据分布一致的评估数据。图1为一种对用户画像数据进行评估的方法的流程图。如图1所示,该方法10可以包括以下步骤。
步骤S11,获取用户画像数据集在至少一个第一维度上的分布信息。
步骤S12,根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致。
步骤S13,利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。
本文中,用户画像数据集是指多个用户的画像数据的集合。其中,一个用户的画像数据包括该用户的多个维度的信息,例如用户标识、年龄、性别、出生地、所在地、学历、职业、爱好、收入情况,等。用户画像数据集可以是由某个网络服务提供者(例如,即时通信服务、社交网络服务、网络支付服务、在线购物服务,等)其用户的用户信息中提取出的用户画像数据形成的集合。用户信息可以是用户注册网络服务时填写的注册资料,或者服务提供者采集的用户行为,等。用户标识可以是用户的身份标识、联系方式信息(如电话号码、邮箱地址,等)、用户在网络服务提供者的服务器中注册的用户账号(如即时通信账号、社交账号、网络支付服务账号、购物网站账号,等),等。
本文中,样本数据集是指作为样本的多个用户的数据的集合。样本数据集中的用户数据可以与用户画像数据集中的数据来源不同。例如,样本数据集可以通过委托调研公司进行用户调研,从而采集到的用户数据,或者通过调查问卷得到的用户数据,或者企业客户关系管理系统(CRM)中的数据,等。
评估数据集是根据用户画像数据集在第一维度上的分布情况从样本数据集中抽取的用户数据的集合。一些例子中,评估数据集中用户数据与用户画像数据集中的用户画像数据在第一维度上具有相同的分布。维度是指用户的某一属性,例如年龄、性别、出生地、所在地、学历、职业、爱好、收入情况,等。例如,假设选取年龄、性别、所在地作为第一维度时,则根据用户画像数据集中的数据在年龄、性别、所在地的分布情况从样本数据集中提取用户数据,形成在年龄、性别、所在地这些维度上分布情况一致的评估数据集。
各实施例通过从样本数据集中选取与用户画像数据分布一致的评估数据,能够使得提取的评估数据对用户画像数据具有代表性,从而使评估结果更加客观、准确。
为了保证筛选出的评估数据具有代表性,一些例子采用分层抽样和协调抽样的方法来从样本数据集中抽取评估数据。图2为一种从样本数据集中提取评估数据集的方法流程图。如图2所示,该方法20可以包括以下步骤。
步骤S21,将用户画像数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个画像数据组。
其中,所述多个画像数据组对应不同的取值范围。
一些例子中,可以将各个第一维度的取值范围分成多段,利用各第一维度的各分段的不同组合确定多个层,每层对应各第一维度的不同取值范围。分层的总数等于各第一维度分段数的乘积。例如,当第一维度为性别时,可以确定两层,分别对应性别的不同值,即男、女;当第一维度为性别和年龄时,假设性别分两段(男、女),年龄分3段(20岁以下、20岁到50岁、50岁以上),则可以分6层,每层对应不同的性别和年龄段的组合,即,20岁以下的男性、20岁到50岁的男性、50岁以上的男性、20岁以下的女性、20岁到50岁的女性、50岁以上的女性。各实施例中,分层的数目可以根据实际需要的估计精度、抽样成本、抽样难度、计算复杂度等因素来确定。
确定分层后,就可以依据各层对应的取值范围将用户画像数据集中各用户的画像数据按照其第一维度的值分入多个画像数据组,每个画像数据组对应一个分层。
步骤S22,根据各画像数据组中的用户信息得到所述分布信息,所述分布信息描述各用户在所述至少一个第一维度的各种取值范围上的分布。
步骤S23,将所述样本数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个评估数据组。
其中,所述多个评估数据组对应不同的取值范围。
一些例子中,可以依据与对用户画像数据分组的相同的分层方式将样本数据集中的用户数据进行分组。此时,各画像数据组与各评估数据组为一一对应的关系,具有对应关系的画像数据组与评估数据组具有相同或相对应的取值范围。相对应的取值范围是指取值范围或者其中数值的表达方式不同,它们之间是可以依据某种规则相互转化的。
另一些例子中,对样本数据集中的数据进行分组也可以采用与画像数据分组不同的分层方法。此时,画像数据组与评估数据组可以有一对多或者多对一的关系,其数值范围可以是包含和被包含的关系。
步骤S24,根据所述分布信息从各评估数据组中抽取用户的数据,利用抽取出的用户的数据组成所述评估数据集。
一些例子中,所述分布信息描述所述至少一个第一维度的各种取值范围上分布的用户数目。步骤S24可以包括:
根据所述各种取值范围上分布的用户数目和各评估数据组中用户的数目确定抽样比例;
根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目。
一些例子中,需要从各取值范围对应的评估数据组中抽取的用户的数目可以等于各评估数据组对应的画像数据组中的用户数目与所述抽样比例的乘积。
例如,选取3个第一维度,例如分别为性别、年龄、所在地。其中,年龄维度上的分段数为A,性别维度上的分段数为G,所在地维度上的分段数为L,则总的分层数目为A×G×L。可以根据用户画像数据在每一个分层(即画像数据组)中的分布比例,计算需要从样本数据的每一个分层(即评估数据组)中抽取的用户数目,再从各评估数据组中进行随机抽样。
假设样本数据集中的用户数为M,用户画像数据集中的用户数为N,M>{A,G,L}且M>A×G×L。理论上,可以按画像数据组中用户数在用户画像数据集中用户数目中所占的比例进行抽样,每个评估数据组中抽取的样本数为:
而实际情况中,可能存在用户画像数据在某层分布较多,而在样本数据集中这部分用户很少甚至为0,因此并不能直接按照上述方法进行抽样,需要根据样本数据集中的用户分布情况对抽样比例进行调整,从而抽取出与用户画像数据分布一致的评估数据集。
一些例子中,调整抽样比例的方式可以包括:确定各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值作为抽样比例。
一些例子中,处于预设位置的第一比值为最小的比值,即对各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按照从大到小排列时位于最后一位的比值,或者对各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按照从小到大排列时位于第一位的比值。例如,样本数据集中存在某一个分层,其对应的用户数目特别小,这个分层就成为抽样的瓶颈。假设该分层中的用户数为M0,与该分层对应的画像数据组中的用户数目之比为 其中Mp为样本数据集中分层p对应的用户数(即评估数据组p中的用户数),Np为用户画像数据集中分层p对应的用户数(即画像数据组p中的用户数)。各层抽样量需要按抽样瓶颈进行同比例缩小才能保证抽样得到的评估数据集与用户画像数据集具有分布一致性。该例中,各评估数据组的最终抽样量为
一些例子中,样本数据集中可能存在一个或多个分层,其对应的用户数目特别小甚至为0,使得无法进行抽样。此时,可以忽略这些分层,将各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值作为抽样比例。例如,可以取排名在前预设比例各比值中的最小值,即对各评估数据组对应的比值按照从大到小或从小到大的顺序排列时位于预设比例处的比值,例如,从大到小排列时,取前80%的比值中的最小值(例如,当100个比值从大到小排列时,取前80%中的最小值即取排在第100*80%=80位的比值),等。假设该比值为各评估数据组的最终抽样量为用户数目小于抽样量的分层,可以将其中所有用户的数据提取出来,作为评估数据集中的评估数据。
一些例子中,调整抽样比例的方式可以包括:取以下两个值中较小的值作为抽样比例:
预设的期望抽样数目与所述用户画像数据集中用户数目的比值;
各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值。
期望抽样容量是指预设的希望能够抽取到的样本总量。
假设用户画像数据集中的用户总数为N=ΣNp,期望抽样容量EM=ΣEMp。各数据集中各分层用户数目如下表1
表1各数据集中各分层的用户数目
某层期望抽样量为样本数据集中存在某一个分层的用户数量特别小,记其中用户数量为M0,与期望抽样量EM0比率为 该分层成为抽样瓶颈。各层期望抽样量EMp需要按抽样瓶颈进行同比例缩小才能保证抽样与用户画像数据同分布,因此各分层最终抽样量为
可以对抽样瓶颈进行推理归约:
一些例子中,样本数据集中可能存在一个或多个分层,其对应的用户数目特别小甚至为0,使得无法进行抽样。此时,可以忽略这些分层,取各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值,根据第一比值对抽样比例进行调整。例如,可以取排名在前预设比例各比值中的最小值作为第一比值,即对各评估数据组对应的比值按照从大到小或从小到大的顺序排列时位于预设比例处的比值,例如,从大到小排列时,取前80%的比值中的最小值,等。
图3为一种评估用户画像数据集中数据准确度的方法流程图。如图3所示,该方法30可以包括以下步骤。
步骤S31,从所述用户画像数据集中选取与所述评估数据集中每个用户的用户标识相同的用户的画像数据,利用每个用户的画像数据与该用户在评估数据集中的评估数据形成该用户对应的样本对。
各实施例中,由于用户画像数据集为某服务的所有用户的用户画像数据的集合,该服务的提供者获取的样本数据集是针对该服务的用户获取得到的用户数据集,评估数据集中的每个用户在用户画像集合中都有对应的画像数据。因此,可以以评估数据集中的各用户作为样本,根据其画像数据和评估数据之间的差异大小作为整个用户群体的画像数据的准确度的评判依据。
步骤S32,根据各样本对中画像数据与评估数据在所述第二维度上的差异获得所述用户画像数据集中所述第二维度上的数据的准确度。
一些例子中,可以将所述差异与预设的阈值进行比较,根据比较结果确定所述准确度。例如,如果差异大于阈值,则确定用户画像数据的准确度较低;如果差异小于等于阈值,则确定用户画像数据的准确度较高。
上述差异可以利用假设检验算法获得,或者利用准确率算法来获得。假设检验算法可以包括参数假设检验算法、非参数假设检验算法,例如Z检验算法、T检验算法、F检验算法、比率检验算法,等。其中,参数假设检验算法适用于数据的取值为连续值的情况,非参数假设检验算法适用于数据的取值为离散值的情况。
对于参数假设检验算法,可以获得各样本对的相关系数为:
其中,xi为用户i的画像数据,yi为用户i的评估数据,为各用户的画像数据的平均值,为各用户的评估数据的平均值。为了描述简便,这里将画像数据和评估数据在第二维度上的取值简称为画像数据和评估数据,以下同。
一些例子中,各样本对中画像数据与评估数据在所述第二维度上的差异可以是在所述第二维度上所述画像数据的平均值与所述评估数据的平均值之间的差异。此时可以采用平均数差异的显著性检验方法。
例如,平均数差异的显著性检验方法采用Z检验算法时,各样本对中画像数据与评估数据的标准误为:
检验样本对平均数差值的一致性Z检验为:
其中,DX是x和y的差的平均数,x为各用户的画像数据组成的向量,y为各用户的评估数据组成的向量,μDX假设的DX的平均数。
在容忍差异为Δ时,可以对Z值的上述计算方法进行如下处理:
当abs(xi-yi)≤Δ时,认为(xi-yi)=0;
当abs(xi-yi)>Δ时,(xi-yi)=(xi-yi)。
预设置信度α的双侧检验临界值为Zα/2。若|Z|>Zα/2,则确定画像数据与评估数据差异显著,用户画像数据的准确度较低;若|Z|≤Zα/2,则确定画像数据与评估数据差异不显著,用户画像数据的准确度较高。
一些例子中,各样本对中画像数据与评估数据在所述第二维度上的差异可以是在所述第二维度上所述画像数据的方差与所述评估数据的方差之间的差异。此时可以采用方差之间差异的显著性检验。
例如,可以按照下列算法进行T检验:
查看自由度为n-2的t表,若t大于临界值,则两个方差之间存在显著性差异,确定画像数据与评估数据差异显著,用户画像数据的准确度较低;若t小于或等于临界值,则确定画像数据与评估数据差异不显著,用户画像数据的准确度较高。
一些例子中,各样本对中画像数据与评估数据在所述第二维度上的差异可以是在所述第二维度上所述画像数据的各种取值所占比率与所述评估数据的各种取值所占比率之间的差异。此时可以采用非参数假设检验算法。
一些例子中,当第二维度的取值为离散值,比如性别取值为男或女,民族取值为不同的民族,国籍取值为不同的国家,身体状态取值为健康、不健康,还有例如学习成绩、能力水平、对某一问题的态度等等。这些用户属性的取值没有量的大小关系,只是不同的类别。这些分类数据可以使用比率显著性检验等方法。
例如,可以使用比率显著性检验方法中的McNeMar检验方法。
根据各样本对中画像数据和评估数据生成McNeMar检验矩阵。当数据有两种可能取值时,McNeMar检验矩阵可以如表2所示。
表2 McNeMar检验矩阵
值1、值2是第二维度数据的两种可能取值,比如男/女、喜欢/不喜欢,等。以上nij(i,j=1,2)是各样本对中,画像数据和评估数据的取值分别为值1和值2的用户的数目。
预设置信度α的双侧检验临界值为Zα/2。若|Z|>Zα/2,则确定画像数据与评估数据差异显著,用户画像数据的准确度较低;若|Z|≤Zα/2,则确定画像数据与评估数据差异不显著,用户画像数据的准确度较高。
一些例子中,各样本对中画像数据与评估数据在所述第二维度上的差异可以是所述各样本对中各用户的所述画像数据在所述第二维度上的数据组成的第一数据组与各用户的所述评估数据在所述第二维度上的数据组成的第二数据组之间的差异。此时,可以根据各样本对中画像数据与评估数据之间的整体相差程度来衡量画像数据的准确率。
例如,对于取值连续的第二维度数据,准确率公式可以如下:
对于取值为离散值的第二维度数据,准确率公式可以如下:
其中D1是各样本对中各用户的画像数据组成的向量,D2是各样本对中各用户的评估数据组成的向量,Δ为可以容忍的误差,||||表示0范数。
各实施例还提供了一种评估用户画像数据的系统,可以执行各实施例的评估用户画像数据的方法。图4为本发明实施例的评估用户画像数据的系统示意图。如图4所示,该系统40可以包括处理器41、通信接口44、存储装置46和总线49。存储装置46中包括操作系统47、通信模块48、数据库42和画像评估模块43。
处理器41可以有一个或者多个,可以在同一个物理设备中,或者分布在多个物理设备中。
系统40可以利用通信接口44通过某种通信连接获取数据,例如用户画像数据、样本数据等,也可以通过通信接口44将评估结果通过某种通信连接提供给其它设备。通信连接可以是有线的或者无线的,可以是直接连接或者网络连接,网络可以是局域网或者互联网。通信接口44可以支持相应的通信协议。
数据库112可以存储各种数据,例如用户画像数据集421、样本数据集422,等。
画像评估模块43可以包括分布获取模块431、样本提取模块432和评估模块433。
分布获取模块431可以获取用户画像数据集在至少一个第一维度上的分布信息。
样本提取模块432可以根据所述分布信息从样本数据集中提取出评估数据集;其中,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;
评估模块433可以利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度。
一些例子中,分布获取模块431可以包括:画像分组模块4311和分布确定单元4312。
画像分组模块4311可以将所述用户画像数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个画像数据组,其中,所述多个画像数据组对应不同的取值范围。
分布确定模块4312可以根据各画像数据组中的用户信息得到所述分布信息,所述分布信息描述各用户在所述至少一个第一维度的各种取值范围上的分布。
此时,样本提取模块432可以包括:样本分组模块4321和抽样模块4322。
样本分组模块4321可以将所述样本数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个评估数据组,其中,所述多个评估数据组对应不同的取值范围。
抽样模块4322可以根据所述分布信息从各评估数据组中抽取用户的数据,利用抽取出的用户的数据组成所述评估数据集。
一些例子中,分布信息描述所述至少一个第一维度的各种取值范围上分布的用户数目,则抽样模块4322可以根据所述各种取值范围上分布的用户数目和各评估数据组中用户的数目确定抽样比例;根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目。
一些例子中,抽样比例可以为以下值中的一个:
各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值;或
预设的期望抽样数目与所述用户画像数据集中用户数目的比值与所述第一比值中较小的值。
一些例子中,评估模块433可以包括配对模块4331和差异检测模块4332。
配对模块4331可以用于从所述用户画像数据集中选取与所述评估数据集中每个用户的用户标识相同的用户的画像数据,利用每个用户的画像数据与该用户在评估数据集中的评估数据形成该用户对应的样本对。
差异检测模块4332可以根据各样本对中画像数据与评估数据在所述第二维度上的差异获得所述用户画像数据集中所述第二维度上的数据的准确度。
一些例子中,差异检测模块4332可以将所述差异与预设的阈值进行比较,根据比较结果确定所述准确度。
一些例子中,差异检测模块4332可以获得以下中的一个作为各样本对中画像数据与评估数据在所述第二维度上的差异:
在所述第二维度上所述画像数据的平均值与所述评估数据的平均值之间的差异;
在所述第二维度上所述画像数据的方差与所述评估数据的方差之间的差异;
在所述第二维度上所述画像数据的各种取值所占比率与所述评估数据的各种取值所占比率之间的差异;
所述各样本对中各用户的所述画像数据在所述第二维度上的数据组成的第一数据组与各用户的所述评估数据在所述第二维度上的数据组成的第二数据组之间的差异。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。另外,上面描述中采用“第一”、“第二”仅仅为了方便区分具有同一含义的两个对象,并不表示其有实质的区别。
各例中,各模块可以由专门的硬件或执行机器可读指令的硬件实现。例如,硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。
图中的各模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。
非易失性计算机可读存储介质包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
综上所述,权利要求的范围不应局限于以上描述的例子中的实施方式,而应当将说明书作为一个整体并给予最宽泛的解释。
Claims (10)
1.一种评估用户画像数据的方法,其特征在于,包括:
将用户画像数据集中各用户的数据根据其在至少一个第一维度上的值分入多个画像数据组,其中,所述用户画像数据集是多个用户的画像数据的集合,一个用户的画像数据包括该用户的多个维度的信息,所述多个画像数据组对应不同的取值范围;
根据各画像数据组中的用户信息得到所述用户画像数据集在至少一个第一维度上的分布信息,其中,所述分布信息描述所述至少一个第一维度的各种取值范围上分布的用户数目;
将样本数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个评估数据组,其中,所述多个评估数据组对应不同的取值范围,所述各评估数据组与所述各画像数据组为一一对应的关系,具有对应关系的画像数据组与评估数据组具有相同或相对应的取值范围;
根据所述各种取值范围上分布的用户数目和各评估数据组中用户的数目确定抽样比例;
根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目,利用抽取出的用户的数据组成评估数据集;
其中,所述样本数据集中的用户数据与所述用户画像数据集中的数据来源不同,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;
利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度;
其中,所述抽样比例为以下值中的一个:
各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值;或
预设的期望抽样数目与所述用户画像数据集中用户数目的比值与所述第一比值中较小的值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目包括:
所述需要从各取值范围对应的评估数据组中抽取的用户的数目等于各评估数据组对应的画像数据组中的用户数目与所述抽样比例的乘积。
3.根据权利要求1所述的方法,其特征在于,利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度包括:
从所述用户画像数据集中选取与所述评估数据集中每个用户的用户标识相同的用户的画像数据,利用每个用户的画像数据与该用户在评估数据集中的评估数据形成该用户对应的样本对;
根据各样本对中画像数据与评估数据在所述第二维度上的差异获得所述用户画像数据集中所述第二维度上的数据的准确度。
4.根据权利要求3所述的方法,其特征在于,所述各样本对中画像数据与评估数据在所述第二维度上的差异包括以下中的一个:
在所述第二维度上所述画像数据的平均值与所述评估数据的平均值之间的差异;
在所述第二维度上所述画像数据的方差与所述评估数据的方差之间的差异;
在所述第二维度上所述画像数据的各种取值所占比率与所述评估数据的各种取值所占比率之间的差异;
所述各样本对中各用户的所述画像数据在所述第二维度上的数据组成的第一数据组与各用户的所述评估数据在所述第二维度上的数据组成的第二数据组之间的差异。
5.根据权利要求4所述的方法,其特征在于,根据各样本对中画像数据与评估数据在所述第二维度上的差异获得所述用户画像数据集中所述第二维度上的数据的准确度包括:
将所述差异与预设的阈值进行比较,根据比较结果确定所述准确度。
6.一种评估用户画像数据的系统,其特征在于,包括:
分布获取模块,用于获取用户画像数据集在至少一个第一维度上的分布信息,其中,所述用户画像数据集是多个用户的画像数据的集合,一个用户的画像数据包括该用户的多个维度的信息;
样本提取模块,用于根据所述分布信息从样本数据集中提取出评估数据集;其中,所述样本数据集中的用户数据与所述用户画像数据集中的数据来源不同,所述评估数据集中的数据在所述至少一个第一维度上的分布与所述分布信息描述的分布一致;
评估模块,用于利用所述评估数据集中第二维度上的数据获得所述用户画像数据集中所述第二维度上的数据的准确度;
其中,所述分布获取模块包括:
画像分组模块,用于将所述用户画像数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个画像数据组,其中,所述多个画像数据组对应不同的取值范围;
分布确定模块,用于根据各画像数据组中的用户信息得到所述分布信息,所述分布信息描述各用户在所述至少一个第一维度的各种取值范围上的分布;
其中,所述样本提取模块包括:
样本分组模块,用于将所述样本数据集中各用户的数据根据其在所述至少一个第一维度上的值分入多个评估数据组,其中,所述多个评估数据组对应不同的取值范围,所述各评估数据组与所述各画像数据组为一一对应的关系,具有对应关系的画像数据组与评估数据组具有相同或相对应的取值范围;
抽样模块,用于根据所述分布信息从各评估数据组中抽取用户的数据,利用抽取出的用户的数据组成所述评估数据集;
其中,所述分布信息描述所述至少一个第一维度的各种取值范围上分布的用户数目;
所述抽样模块用于:
根据所述各种取值范围上分布的用户数目和各评估数据组中用户的数目确定抽样比例;
根据所述各种取值范围上分布的用户数目与所述抽样比例确定需要从各取值范围对应的评估数据组中抽取的用户的数目;
其中,所述抽样比例为以下值中的一个:
各评估数据组中用户数目与其对应的画像数据组中用户数目的比值按大小排列后处于预设位置的第一比值;或
预设的期望抽样数目与所述用户画像数据集中用户数目的比值与所述第一比值中较小的值。
7.根据权利要求6所述的系统,其特征在于,所述评估模块包括:
配对模块,用于从所述用户画像数据集中选取与所述评估数据集中每个用户的用户标识相同的用户的画像数据,利用每个用户的画像数据与该用户在评估数据集中的评估数据形成该用户对应的样本对;
差异检测模块,用于根据各样本对中画像数据与评估数据在所述第二维度上的差异获得所述用户画像数据集中所述第二维度上的数据的准确度。
8.根据权利要求7所述的系统,其特征在于,所述差异检测模块用于获得以下中的一个作为所述差异包括:
在所述第二维度上所述画像数据的平均值与所述评估数据的平均值之间的差异;
在所述第二维度上所述画像数据的方差与所述评估数据的方差之间的差异;
在所述第二维度上所述画像数据的各种取值所占比率与所述评估数据的各种取值所占比率之间的差异;
所述各样本对中各用户的所述画像数据在所述第二维度上的数据组成的第一数据组与各用户的所述评估数据在所述第二维度上的数据组成的第二数据组之间的差异。
9.根据权利要求8所述的系统,其特征在于,所述差异检测模块用于:
将所述差异与预设的阈值进行比较,根据比较结果确定所述准确度。
10.一种计算机可读存储介质,存储有计算机可读指令,其特征在于,所述指令可以使一个或多个处理器执行用于实现根据权利要求1-5中任一权利要求所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610683111.6A CN107767155B (zh) | 2016-08-18 | 2016-08-18 | 一种评估用户画像数据的方法及系统 |
PCT/CN2017/097455 WO2018033052A1 (zh) | 2016-08-18 | 2017-08-15 | 一种评估用户画像数据的方法及系统 |
EP17841024.7A EP3503004A1 (en) | 2016-08-18 | 2017-08-15 | Method and system for evaluating user portrait data |
US16/006,156 US10915540B2 (en) | 2016-08-18 | 2018-06-12 | Method and system for evaluating user persona data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610683111.6A CN107767155B (zh) | 2016-08-18 | 2016-08-18 | 一种评估用户画像数据的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107767155A CN107767155A (zh) | 2018-03-06 |
CN107767155B true CN107767155B (zh) | 2021-06-18 |
Family
ID=61196407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610683111.6A Active CN107767155B (zh) | 2016-08-18 | 2016-08-18 | 一种评估用户画像数据的方法及系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10915540B2 (zh) |
EP (1) | EP3503004A1 (zh) |
CN (1) | CN107767155B (zh) |
WO (1) | WO2018033052A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595395B (zh) * | 2018-03-21 | 2022-02-25 | 创新先进技术有限公司 | 一种昵称的生成方法、装置及设备 |
CN111341425A (zh) * | 2020-02-28 | 2020-06-26 | 高猛 | 一种基于大数据的医护人员监测管理系统及方法 |
KR20210124488A (ko) * | 2020-11-09 | 2021-10-14 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 샘플링 대상 결정 방법, 장치, 전자 설비 및 컴퓨터 판독 가능 저장 매체 |
CN115600945B (zh) * | 2022-09-07 | 2023-06-30 | 淮阴工学院 | 基于多粒度的冷链配载用户画像构建方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258054A (zh) * | 2013-05-31 | 2013-08-21 | 闫朝升 | 数据处理方法及装置 |
CN104239351A (zh) * | 2013-06-20 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 一种用户行为的机器学习模型的训练方法及装置 |
US9235848B1 (en) * | 2007-07-09 | 2016-01-12 | Groupon, Inc. | Implicitly associating metadata using user behavior |
CN105574159A (zh) * | 2015-12-16 | 2016-05-11 | 浙江汉鼎宇佑金融服务有限公司 | 一种基于大数据的用户画像建立方法和用户画像管理系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184075A1 (en) * | 2001-05-31 | 2002-12-05 | Hertz Paul T. | Method and system for market segmentation |
WO2005020788A2 (en) * | 2003-08-01 | 2005-03-10 | The General Hospital Corporation | Cognition analysis |
US7653627B2 (en) * | 2005-05-13 | 2010-01-26 | Microsoft Corporation | System and method for utilizing the content of an online conversation to select advertising content and/or other relevant information for display |
US20070239522A1 (en) * | 2006-03-30 | 2007-10-11 | Microsoft Corporation | User Persona Content Targeting |
US7979362B2 (en) * | 2007-08-10 | 2011-07-12 | Motorola Solutions, Inc. | Interactive data mining system |
CA2671002A1 (en) * | 2008-07-07 | 2010-01-07 | Glen Drummond | Persona-based customer relationship management tools and methods for sales support |
US8996548B2 (en) * | 2011-01-19 | 2015-03-31 | Inmar Analytics, Inc. | Identifying consuming entity behavior across domains |
US20130073335A1 (en) * | 2011-09-20 | 2013-03-21 | Ebay Inc. | System and method for linking keywords with user profiling and item categories |
US9462313B1 (en) * | 2012-08-31 | 2016-10-04 | Google Inc. | Prediction of media selection consumption using analysis of user behavior |
US20150156030A1 (en) * | 2012-09-21 | 2015-06-04 | Google Inc. | Handling specific visitor behavior at an entryway to a smart-home |
JP5950284B2 (ja) * | 2013-12-13 | 2016-07-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 処理装置、処理方法、およびプログラム |
US20150324811A1 (en) * | 2014-05-08 | 2015-11-12 | Research Now Group, Inc. | Scoring Tool for Research Surveys Deployed in a Mobile Environment |
CN104317790A (zh) * | 2014-07-22 | 2015-01-28 | 翔傲信息科技(上海)有限公司 | 一种基于大数据的用户行为的控制方法及系统 |
US9703962B2 (en) * | 2014-10-09 | 2017-07-11 | Qualcomm Incorporated | Methods and systems for behavioral analysis of mobile device behaviors based on user persona information |
US20160189201A1 (en) * | 2014-12-26 | 2016-06-30 | Yahoo! Inc. | Enhanced targeted advertising system |
-
2016
- 2016-08-18 CN CN201610683111.6A patent/CN107767155B/zh active Active
-
2017
- 2017-08-15 WO PCT/CN2017/097455 patent/WO2018033052A1/zh unknown
- 2017-08-15 EP EP17841024.7A patent/EP3503004A1/en not_active Ceased
-
2018
- 2018-06-12 US US16/006,156 patent/US10915540B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9235848B1 (en) * | 2007-07-09 | 2016-01-12 | Groupon, Inc. | Implicitly associating metadata using user behavior |
CN103258054A (zh) * | 2013-05-31 | 2013-08-21 | 闫朝升 | 数据处理方法及装置 |
CN104239351A (zh) * | 2013-06-20 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 一种用户行为的机器学习模型的训练方法及装置 |
CN105574159A (zh) * | 2015-12-16 | 2016-05-11 | 浙江汉鼎宇佑金融服务有限公司 | 一种基于大数据的用户画像建立方法和用户画像管理系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3503004A4 (en) | 2019-06-26 |
US10915540B2 (en) | 2021-02-09 |
CN107767155A (zh) | 2018-03-06 |
EP3503004A1 (en) | 2019-06-26 |
US20180300376A1 (en) | 2018-10-18 |
WO2018033052A1 (zh) | 2018-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106355449B (zh) | 用户选取方法和装置 | |
CN103795613B (zh) | 一种在线社交网络中朋友关系预测的方法 | |
CN107944481B (zh) | 用于生成信息的方法和装置 | |
US11755675B2 (en) | Method and apparatus for managing region tag | |
CN105608179B (zh) | 确定用户标识的关联性的方法和装置 | |
CN107767155B (zh) | 一种评估用户画像数据的方法及系统 | |
CN106817251B (zh) | 一种基于节点相似度的链路预测方法及装置 | |
CN106709318B (zh) | 一种用户设备唯一性的识别方法、装置和计算设备 | |
WO2016015444A1 (zh) | 一种目标用户的确定方法、设备和网络服务器 | |
CN108399564B (zh) | 信用评分方法及装置 | |
CN108182253B (zh) | 用于生成信息的方法和装置 | |
WO2018090545A1 (zh) | 融合时间因素的协同过滤方法、装置、服务器和存储介质 | |
CN109614556B (zh) | 访问路径预测、信息推送方法及装置 | |
CN105787133B (zh) | 广告信息过滤方法及装置 | |
CN104077723B (zh) | 一种社交网络推荐系统及方法 | |
CN105894028B (zh) | 用户识别方法和装置 | |
CN107767153B (zh) | 一种数据处理方法及装置 | |
CN111814910B (zh) | 异常检测方法、装置、电子设备及存储介质 | |
CN105574480B (zh) | 一种信息处理方法、装置以及终端 | |
CN110046251A (zh) | 社区内容风险评估方法及装置 | |
CN108512674B (zh) | 用于输出信息的方法、装置和设备 | |
CN110414613B (zh) | 区域聚类的方法、装置、设备和计算机可读存储介质 | |
CN114780606A (zh) | 一种大数据挖掘方法及系统 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN111222923A (zh) | 一种判断潜在客户的方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |