CN108399249B - 数据归一化方法、用户画像提供方法、设备及存储介质 - Google Patents

数据归一化方法、用户画像提供方法、设备及存储介质 Download PDF

Info

Publication number
CN108399249B
CN108399249B CN201810175528.0A CN201810175528A CN108399249B CN 108399249 B CN108399249 B CN 108399249B CN 201810175528 A CN201810175528 A CN 201810175528A CN 108399249 B CN108399249 B CN 108399249B
Authority
CN
China
Prior art keywords
data
user
population
attribute
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810175528.0A
Other languages
English (en)
Other versions
CN108399249A (zh
Inventor
刘俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jingshu Information Technology Co ltd
Original Assignee
Shanghai Jingshu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jingshu Information Technology Co ltd filed Critical Shanghai Jingshu Information Technology Co ltd
Priority to CN201810175528.0A priority Critical patent/CN108399249B/zh
Publication of CN108399249A publication Critical patent/CN108399249A/zh
Application granted granted Critical
Publication of CN108399249B publication Critical patent/CN108399249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据归一化方法、用户画像提供方法、设备及存储介质,所述数据归一化方法包括:S110:自n个数据源采集用户i的人口属性j的数据取值;S120:判断人口属性j的属性类型;S130:若所述人口属性j为连续型,则采用相关性加权均值法计算用户i的人口属性j的归一化值:S140:若所述人口属性j为离散型,则采用贝叶斯投票法计算用户i的人口属性j的归一化值。本发明提供的方法和设备在做跨数据源的数据归一时,充分考虑了不同数据源的差异性,对于不同数据源赋予了不同的权值,针对均值法和投票法分别采用了相关性加权和贝叶斯方法,对权值进行了合理的分配,平衡不同数据源可能存在的问题,得到最合理的一个人口属性跨数据源归一值。

Description

数据归一化方法、用户画像提供方法、设备及存储介质
技术领域
本发明涉及数据查询领域,尤其涉及一种数据归一化方法、用户画像提 供方法、设备及存储介质。
背景技术
在企业实际应用场境中,面对同一个自然人,其人口属性特征往往在不 同来源的数据中存在,而且其属性特征在不同数据源中存在差异,这样的情 况是非常普遍。造成的原因大致有以下几种:1)对于原始数据源中的属性特 征来自实际收集的情况,可能采样和收集存在误差,这是原始数据的数据来 源存在的问题;2)对于原始数据源中的属性特征来自算法预测的情况,不同 算法的预测结果均存在误差,这是得到原始数据的算法存在的问题。因此, 在面对不同数据源中的人口属性存在差异的情况,如何做好数据的归一化就 是一个非常重要的问题。
现有的技术方案,通常把该问题当作一个普遍情况下的数据清洗的问题, 采用的方法一般为投票法以及均值法:
1)均值法,对不同来源的数据取平均值,具体计算方法如下:
假设用户i的j属性来自k数据源的查询结果为xijk,方案希望得到的该 用户j属性归一化的值为
Figure BDA0001587197560000011
Figure BDA0001587197560000012
2)投票法,具体计算方法如下:
假设用户i的j属性的在不同数据来源的取值集合为{aij1,aij2,aij3...aijn},计数函数为count(),该用户j属性归一化的值为
Figure BDA0001587197560000013
Figure BDA0001587197560000014
上述的现有技术,其最大的问题在于没有考虑不同数据源本身的数据质 量问题。来自不同数据源的数据本身数据质量存在差异,在做归一算法的时 候如果不考虑不同数据源的数据质量就会把质量差的数据所带的信息纳入到 最后的结果中,另外简单的均值法极易受到极端值的影响,如果某个数据源 的数据是偏离程度比较大的,那来自这个数据源的数据会极大程度上对最后 的结果造成影响。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种数据归一化方法、 用户画像提供方法、设备及存储介质,在做跨数据源的数据归一时,充分考 虑了不同数据源的差异性,对于不同数据源赋予了不同的权值,针对均值法 和投票法分别采用了相关性加权和贝叶斯方法,对权值进行了合理的分配, 平衡不同数据源可能存在的问题,得到最合理的一个人口属性跨数据源归一 值。
本发明提供一种跨数据源人口属性的数据归一化方法,包括:
S110:自n个数据源采集用户i的人口属性j的数据取值,n为大于等于 2的整数;
S120:判断人口属性j的属性类型;
S130:若所述人口属性j为连续型,则按如下步骤S131至S133计算用 户i的人口属性j的归一化值:
S131:使n个数据源中每一数据源采集的人口属性j的连续型数据值形 成一列数据向量xjk,其中,该列数据向量xjk的行数为数据源k中的用户数 量,k为大于等于1小于等于n的整数;
S132:计算该列数据向量的相关系数矩阵;
S133:利用所述相关系数矩阵计算用户i的人口属性j的归一化值;
S140:若所述人口属性j为离散型,则按如下步骤S141至S145计算用 户i的人口属性j的归一化值:
S141:确定所述人口属性j的取值集合{aj1,aj1,…,aje,…,ajm},其中,e 为大于等于1小于等于m的整数,m为大于等于2的整数;
S142:根据自多个数据源采集的多个用户的人口属性j的离散型数据值 计算人口属性j的先验概率分布p0(aje);
S143:根据自所述n个数据源采集的用户i的人口属性j的离散型数据值 计算人口属性j的关联用户i的人口属性j的概率分布p1(aje);
S144:根据所述人口属性j的先验概率分布p0(aje)及人口属性j的关联用 户i的概率分布p1(aje)计算人口属性j的关联用户i的后验概率分布p2(aje);
S145:根据所述后验概率分布p2(aje)计算用户i的人口属性j的归一化值。
可选地,所述S132包括:
计算该列数据向量的皮尔逊相关系数相关系数矩阵
Figure BDA0001587197560000031
其 中,
Figure BDA0001587197560000032
Figure BDA0001587197560000033
Figure BDA0001587197560000034
之间的皮尔逊相关系数,k1,k2为大于等于1小于等于 n的整数。
可选地,
Figure BDA0001587197560000035
Figure BDA0001587197560000036
之间的皮尔逊相关系数
Figure BDA0001587197560000037
根据如下公式计算:
Figure BDA0001587197560000038
其中,s为各数据源中用户的数量,
Figure BDA0001587197560000039
为自数据源k1采集的用户i的人 口属性j的取值,
Figure BDA00015871975600000310
Figure BDA00015871975600000311
的平均值,
Figure BDA00015871975600000312
Figure BDA00015871975600000313
的标准差,
Figure BDA00015871975600000314
为自数据源 k2采集的用户i的人口属性j的取值,
Figure BDA00015871975600000315
Figure BDA00015871975600000316
的平均值,
Figure BDA00015871975600000317
Figure BDA00015871975600000318
的标准差。
可选地,所述S133包括:
根据如下公式计算用户i的人口属性j的归一化值
Figure BDA00015871975600000319
Figure BDA00015871975600000320
可选地,所述S144包括:
根据如下公式计算人口属性j的关联用户i的后验概率分布p2(aje):
p2(aje)=p0(aje)·p1(aje)。
可选地,所述S145包括:
根据如下公式计算用户i的人口属性j的归一化值
Figure BDA00015871975600000321
Figure BDA0001587197560000041
根据本发明的又一方面,还提供一种用户画像提供方法,包括:
获取用户账号;
根据用户账号执行如上所述的跨数据源人口属性的数据归一化方法获取 该用户账号的多个人口属性的归一化值;
根据该用户账号的多个人口属性的归一化值提供关联该用户账号的用户 画像。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行 时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有 计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
使用本方案,在做跨数据源的数据归一时,充分考虑了不同数据源的差 异性,对于不同数据源赋予了不同的权值,针对均值法和投票法分别采用了 相关性加权和贝叶斯方法,对权值进行了合理的分配,平衡不同数据源可能 存在的问题,得到最合理的一个人口属性跨数据源归一值。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优 点将变得更加明显。
图1示出了根据本发明实施例的跨数据源人口属性的数据归一化方法的 流程图。
图2示出了根据本发明实施例的对连续型人口属性的数据归一方法的流 程图。
图3示出了根据本发明实施例的对离散型人口属性的数据归一方法的流 程图。
图4示出了根据本发明实施例的用户画像提供方法的流程图。
图5示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图6示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够 以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这 些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达 给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而 将省略对它们的重复描述。
现有方案的主要问题是没有区别对待来自不同数据源的数据。本发明将 从不同数据源的数据相关性以及其分布调整两个角度对均值法和投票法做一 个改进,用相关性加权均值法和贝叶斯投票法来做一个简单、高效、扩展性 好的算法来解决跨数据源人口属性的归一算法。
下面结合附图描述本发明提供的各个实施例。
结合图1至图3描述跨数据源人口属性的数据归一化方法,图1示出了 根据本发明实施例的跨数据源人口属性的数据归一化方法的流程图;图2示 出了根据本发明实施例的对连续型人口属性的数据归一方法的流程图;图3 示出了根据本发明实施例的对离散型人口属性的数据归一方法的流程图。
首先是步骤S110:自n个数据源采集用户i的人口属性j的数据取值,n 为大于等于2的整数。
具体而言,数据源例如可以是通过电商网站、社交平台以及媒体提供的 人口属性数据源。
步骤S120:判断人口属性j的属性类型。
具体而言,人口属性例如可以包括年龄、性别、所在地、收入等。
本发明中将人口属性划分为连续型和离散型。连续型人口属性指的是在 一定区间内可以取无限多个值,比如收入,且存在大小数值关系的,离散型 人口属性指的是只有有限多个值的,且一般不存在大小数值关系,比如性别, 只会取男或者女。
S130:若所述人口属性j为连续型,则按如图2所示的步骤S131至S133 采用相关性加权均值法计算用户i的人口属性j的归一化值。
具体而言,S131:使n个数据源中每一数据源采集的人口属性j的连续 型数据值形成一列数据向量xjk,其中,该列数据向量xjk的行数为数据源k 中的用户数量,k为大于等于1小于等于n的整数。该列数据向量xjk中每一 行的值即为一自数据源k采集的一用户的人口属性j的连续型数据值。
S132:计算该列数据向量的相关系数矩阵。
步骤S132可以包括:计算该列数据向量的皮尔逊相关系数相关系数矩阵
Figure BDA0001587197560000061
其中,
Figure BDA0001587197560000062
Figure BDA0001587197560000063
Figure BDA0001587197560000064
之间的皮尔逊相关系数,k1,k2为大于等于1小于等于n的整数。
Figure BDA0001587197560000065
Figure BDA0001587197560000066
之间的皮尔逊相关系数
Figure BDA0001587197560000067
根据如下公式计算:
Figure BDA0001587197560000068
其中,s为各数据源中用户的数量,
Figure BDA0001587197560000069
为自数据源k1采集的用户i的人 口属性j的取值,
Figure BDA00015871975600000610
Figure BDA00015871975600000611
的平均值,
Figure BDA00015871975600000612
Figure BDA00015871975600000613
的标准差,
Figure BDA00015871975600000614
为自数据源 k2采集的用户i的人口属性j的取值,
Figure BDA00015871975600000615
Figure BDA00015871975600000616
的平均值,
Figure BDA00015871975600000617
Figure BDA00015871975600000618
的标准差。
S133:利用所述相关系数矩阵计算用户i的人口属性j的归一化值。
具体而言,步骤S133根据如下公式计算用户i的人口属性j的归一化值
Figure BDA00015871975600000619
Figure BDA00015871975600000620
连续型人口属性的取值在一定区间内可以取无限多个值,且存在大小数 值关系的,因此,通过诸如皮尔逊相关系数的相关系数可以体现出不同数据 源中的人口属性的取值的线性关系,并通过该线性关系赋予不同数据源不同 的权重,以能够实现不同数据源中人口属性数据的归一化计算。
S140:若所述人口属性j为离散型,则按如图3所示的步骤S141至S145 计算用户i的人口属性j的归一化值。
具体而言,S141:确定所述人口属性j的取值集合{aj1,aj1,…,aje,…,ajm}, 其中,e为大于等于1小于等于m的整数,m为大于等于2的整数。若人口 属性j为性别,则人口属性j的取值集合可以为{男,女,保密}。
S142:根据自多个数据源采集的多个用户的人口属性j的离散型数据值 计算人口属性j的先验概率分布p0(aje)。
例如,步骤S142相当于自多个数据源采集所有用户的性别数据,每个用 户对应一个值,则
Figure BDA0001587197560000071
Figure BDA0001587197560000072
S143:根据自所述n个数据源采集的用户i的人口属性j的离散型数据值 计算人口属性j的关联用户i的人口属性j的概率分布p1(aje)。
例如,对于同一用户i,
Figure BDA0001587197560000073
Figure BDA0001587197560000074
S144:根据所述人口属性j的先验概率分布p0(aje)及人口属性j的关联用 户i的概率分布p1(aje)计算人口属性j的关联用户i的后验概率分布p2(aje)。
具体而言,步骤S144中根据如下公式计算人口属性j的关联用户i的后 验概率分布p2(aje):p2(aje)=p0(aje)·p1(aje)。
在上述人口属性为性别的实施例中,p2(男)=p0(男)·p1(男); p2(女)=p0(女)·p1(女);p2(保密)=p0(保密)·p1(保密)
S145:根据所述后验概率分布p2(aje)计算用户i的人口属性j的归一化值。
具体而言,所述S145包括:
根据如下公式计算用户i的人口属性j的归一化值
Figure BDA0001587197560000075
Figure BDA0001587197560000076
在上述人口属性为性别的实施例中,
Figure BDA0001587197560000077
为p2(男)、p2(女)及p2(保密)中 数值最大的人口属性取值。
对于离散型人口属性数据,由于其没有大小关系,且取值数量有限,因 此,通过概率的方式可以体现人口属性数据的准确度,同时,通过先验概率 分布和后验概率分布可以修正人口属性数据以进一步地提高人口属性数据的 准确度。
图4示出了根据本发明实施例的用户画像提供方法的流程图。图4共示 出3个步骤:
步骤S210:获取用户账号。
步骤S220:根据用户账号执行如上所述的跨数据源人口属性的数据归一 化方法获取该用户账号的多个人口属性的归一化值。
步骤S230:根据该用户账号的多个人口属性的归一化值提供关联该用户 账号的用户画像。
通过上述方法,在多数据源且数据源数据不同的情况下,本发明可以提 供准确的用户画像,以便后续向用户推荐服务或进行进一步分析。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上 存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施 例中所述电子处方流转处理方法的步骤。在一些可能的实施方式中,本发明 的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程 序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明 书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式 的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程 序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码, 并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于 此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该 程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以 是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、 磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组 合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个 导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的 数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形 式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介 质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播 或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。 可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于 无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作 的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计 语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执 行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设 备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备 的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或 广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例 如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包 括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处 理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述电子 处方流转处理方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、 方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即: 完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬 件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6 显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范 围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600 的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、 连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单 元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单 元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方 法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单 元610可以执行如图1、图2、图3中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机 存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包 括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程 序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或 者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种 组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线 或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总 线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、 蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互 的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行 通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过 输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配 器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或 公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设 备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600 使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处 理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系 统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的 示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来 实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出 来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘, 移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人 计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述电子处 方流转处理方法。
使用本方案,在做跨数据源的数据归一时,充分考虑了不同数据源的差 异性,对于不同数据源赋予了不同的权值,针对均值法和投票法分别采用了 相关性加权和贝叶斯方法,对权值进行了合理的分配,平衡不同数据源可能 存在的问题,得到最合理的一个人口属性跨数据源归一值。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公 开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (8)

1.一种跨数据源人口属性的数据归一化方法,其特征在于,包括:
S110:自n个数据源采集用户i的人口属性j的数据取值,n为大于等于2的整数;
S120:判断人口属性j的属性类型;
S130:若所述人口属性j为连续型,则按如下步骤S131至S133计算用户i的人口属性j的归一化值:
S131:使n个数据源中每一数据源采集的人口属性j的连续型数据值形成一列数据向量xjk,其中,该列数据向量xjk的行数为数据源k中的用户数量,k为大于等于1小于等于n的整数;
S132:计算该列数据向量的相关系数矩阵;
S133:利用所述相关系数矩阵计算用户i的人口属性j的归一化值;
S140:若所述人口属性j为离散型,则按如下步骤S141至S145计算用户i的人口属性j的归一化值:
S141:确定所述人口属性j的取值集合{aj1,aj1,…,aje,…,ajm},其中,e为大于等于1小于等于m的整数,m为大于等于2的整数;
S142:根据自多个数据源采集的多个用户的人口属性j的离散型数据值计算人口属性j的先验概率分布p0(aje);
S143:根据自所述n个数据源采集的用户i的人口属性j的离散型数据值计算人口属性j的关联用户i的人口属性j的概率分布p1(aje);
S144:根据所述人口属性j的先验概率分布p0(aje)及人口属性j的关联用户i的概率分布p1(aje)计算人口属性j的关联用户i的后验概率分布p2(aje);
S145:根据所述后验概率分布p2(aje)计算用户i的人口属性j的归一化值,
其中,所述S144包括:
根据如下公式计算人口属性j的关联用户i的后验概率分布p2(aje):p2(aje)=p0(aje)·p1(aje)。
2.如权利要求1所述的跨数据源人口属性的数据归一化方法,其特征在于,所述S132包括:
计算该列数据向量的皮尔逊相关系数相关系数矩阵
Figure FDA0002574568130000021
其中,
Figure FDA0002574568130000022
Figure FDA0002574568130000023
Figure FDA0002574568130000024
之间的皮尔逊相关系数,k1,k2为大于等于1小于等于n的整数。
3.如权利要求2所述的跨数据源人口属性的数据归一化方法,其特征在于,
Figure FDA0002574568130000025
Figure FDA0002574568130000026
之间的皮尔逊相关系数
Figure FDA0002574568130000027
根据如下公式计算:
Figure FDA0002574568130000028
其中,s为各数据源中用户的数量,
Figure FDA0002574568130000029
为自数据源k1采集的用户i的人口属性j的取值,
Figure FDA00025745681300000210
Figure FDA00025745681300000211
的平均值,
Figure FDA00025745681300000212
Figure FDA00025745681300000213
的标准差,
Figure FDA00025745681300000214
为自数据源k2采集的用户i的人口属性j的取值,
Figure FDA00025745681300000215
Figure FDA00025745681300000216
的平均值,
Figure FDA00025745681300000217
Figure FDA00025745681300000218
的标准差。
4.如权利要求3所述的跨数据源人口属性的数据归一化方法,其特征在于,所述S133包括:
根据如下公式计算用户i的人口属性j的归一化值
Figure FDA00025745681300000219
Figure FDA00025745681300000220
5.如权利要求1所述的跨数据源人口属性的数据归一化方法,其特征在于,所述S145包括:
根据如下公式计算用户i的人口属性j的归一化值
Figure FDA00025745681300000221
Figure FDA0002574568130000031
6.一种用户画像提供方法,其特征在于,包括:
获取用户账号;
根据用户账号执行如权利要求1至5任一项所述的跨数据源人口属性的数据归一化方法获取该用户账号的多个人口属性的归一化值;
根据该用户账号的多个人口属性的归一化值提供关联该用户账号的用户画像。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的方法。
CN201810175528.0A 2018-03-02 2018-03-02 数据归一化方法、用户画像提供方法、设备及存储介质 Active CN108399249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810175528.0A CN108399249B (zh) 2018-03-02 2018-03-02 数据归一化方法、用户画像提供方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810175528.0A CN108399249B (zh) 2018-03-02 2018-03-02 数据归一化方法、用户画像提供方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108399249A CN108399249A (zh) 2018-08-14
CN108399249B true CN108399249B (zh) 2020-12-29

Family

ID=63092114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810175528.0A Active CN108399249B (zh) 2018-03-02 2018-03-02 数据归一化方法、用户画像提供方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108399249B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076525A (zh) * 2021-03-15 2021-07-06 北京明略软件系统有限公司 人口属性值的计算方法及装置、存储介质、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202534A (zh) * 2016-07-25 2016-12-07 十九楼网络股份有限公司 一种基于社区用户行为的内容推荐方法及系统
CN106651424A (zh) * 2016-09-28 2017-05-10 国网山东省电力公司电力科学研究院 基于大数据技术的电力用户画像建立与分析方法
CN107193863A (zh) * 2017-04-01 2017-09-22 广东工业大学 一种无标记数据的数据质量评估方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054190A1 (en) * 2010-08-27 2012-03-01 Aiv Technology Llc Electronic family tree generation and display system
CN104881360A (zh) * 2015-06-10 2015-09-02 合肥工业大学 一种基于云模型和模糊聚合的软件质量综合评价方法
EP3378002A1 (en) * 2015-11-16 2018-09-26 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN106570525A (zh) * 2016-10-26 2017-04-19 昆明理工大学 一种基于贝叶斯网络的在线商品评价质量评估方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202534A (zh) * 2016-07-25 2016-12-07 十九楼网络股份有限公司 一种基于社区用户行为的内容推荐方法及系统
CN106651424A (zh) * 2016-09-28 2017-05-10 国网山东省电力公司电力科学研究院 基于大数据技术的电力用户画像建立与分析方法
CN107193863A (zh) * 2017-04-01 2017-09-22 广东工业大学 一种无标记数据的数据质量评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"让机器读懂用户--大数据中的用户画像";新闻咨询;《CSDN-移动开发:https://www.csdn.net/article/a/2017-02-27/15855731》;20170227;博客第1-3页 *

Also Published As

Publication number Publication date
CN108399249A (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
Chang et al. Rehospitalizations following sepsis: common and costly
Johnson et al. A new severity of illness scale using a subset of acute physiology and chronic health evaluation data elements shows comparable predictive accuracy
US10180777B2 (en) Healthcare similarity engine dashboard
US9418119B2 (en) Method and system to determine a category score of a social network member
WO2019034087A1 (zh) 用户偏好确定方法、装置、设备及存储介质
EP3968180A1 (en) Image processing method and apparatus, computer-readable medium and electronic device
CN112131322A (zh) 时间序列分类方法及装置
CN112348592A (zh) 广告推荐方法、装置、电子设备及介质
WO2019001463A1 (zh) 数据处理方法及装置
WO2023086954A1 (en) Bayesian modeling for risk assessment based on integrating information from dynamic data sources
CN109859060B (zh) 风险确定方法、装置、介质及电子设备
CN108509179B (zh) 用于检测人脸的方法、用于生成模型的装置
CN108399249B (zh) 数据归一化方法、用户画像提供方法、设备及存储介质
CN110348581B (zh) 用户特征群中用户特征寻优方法、装置、介质及电子设备
de Heer et al. Physical therapy and hospitalization among Medicare beneficiaries with low back pain: a retrospective cohort study
CN115762704A (zh) 一种处方审核方法、装置、设备和存储介质
CN112132659B (zh) 信息的推荐方法、装置、电子设备及计算机可读介质
CN111275558B (zh) 用于确定保险数据的方法和装置
CN112699872A (zh) 表单审核处理方法及装置、电子设备和存储介质
Zhang et al. Usable region estimate for assessing practical usability of medical image segmentation models
CN113780675A (zh) 一种消耗预测方法、装置、存储介质及电子设备
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
US10521436B2 (en) Systems and methods for data and information source reliability estimation
Vincent et al. Hospital-specific template matching for benchmarking performance in a diverse multihospital system
CN110941714A (zh) 分类规则库构建方法、应用分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant