CN111522828B - 一种用户画像标签值分析方法及装置 - Google Patents

一种用户画像标签值分析方法及装置 Download PDF

Info

Publication number
CN111522828B
CN111522828B CN202010324872.9A CN202010324872A CN111522828B CN 111522828 B CN111522828 B CN 111522828B CN 202010324872 A CN202010324872 A CN 202010324872A CN 111522828 B CN111522828 B CN 111522828B
Authority
CN
China
Prior art keywords
value
label
tag
preset
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010324872.9A
Other languages
English (en)
Other versions
CN111522828A (zh
Inventor
贾丽
朱文彬
李佩刚
谭晓辉
王成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202010324872.9A priority Critical patent/CN111522828B/zh
Publication of CN111522828A publication Critical patent/CN111522828A/zh
Application granted granted Critical
Publication of CN111522828B publication Critical patent/CN111522828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用户画像标签值分析方法及装置,通过建立用户画像标签的样本集合;根据所述样本集合,建立每一个所述间隔时间的转移矩阵;依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;基于所述第一比较结果,确定所述标签值的稳定性结果。本发明通过建立状态转移矩阵可以分析时间线上的概率趋势。从而可以应用在对标签值的稳定性分析,实现了保证了对标签值更新的时效性和准确性。

Description

一种用户画像标签值分析方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种用户画像标签值分析方法及装置。
背景技术
随着信息化技术的快速发展,用户的各种数据主动或被动的海量增长。用户画像是当前学术界和产业界的研究热点,是真实用户的信息化描述方式。应用系统中的用户画像通常是以标签树森林的形式建立,每个树为一类标签。每一个叶节点标签可以有可数个标签值,各标签值互斥。例如,在客户风险这个标签类下,可以由客户风险偏好这一叶标签,其标签值可以为:保守型、稳健型、均衡型、激进型等。在以标签体系数为画像基础体系的用户画像体系中,有些标签取值与时间密切相关,例如:年龄阶段、保质期等等,这些标签未来的取值可与时间建立函数关系,计算出结果。
但是,大量的标签与时间的关系不具备必然规律性,需要定期更新标签值。标签值通常可以作为分析模型的数据源。为了避免过时的、不准确的标签值对分析决策带来误导,标签值的动态更新是至关重要的。常见的标签值更新方法包括手动更新核系统定期更新,其中,手工维护,人工工作量大,及时性、准确性无法保证。系统定期更新的方法,数据加工量随着标签精细度、客户数据增加、所加工的源数据呈正相关增长,时间消耗大。同时,基于更新后标签值的分析决策模型,均需要重新计算,连带的数据分析工作量大,数据时效性无法保证。
可见,现有的用户画像标签值分析方法无法保证标签值时效性和准确性。
发明内容
针对于上述问题,本发明提供一种用户画像标签值分析方法及装置,实现了保证了对标签值更新的时效性和准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种用户画像标签值分析方法,所述方法包括:
建立用户画像标签的样本集合,所述样本集合包括用户叶标签对应的标签值、间隔时间和当前时间的关联统计数据;
根据所述样本集合,建立每一个所述间隔时间的转移矩阵;
依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;
将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;
基于所述第一比较结果,确定所述标签值的稳定性结果。
可选地,所述方法还包括:
依据所述转移矩阵,计算获得每个所述标签值从第一时刻到第二时刻的转移概率值;
计算所述转移概率的均值,得到整体的转移概率;
根据所述整体的转移概率计算标签值取值变为预设取值的目标转移概率;
将所述目标转移概率与预设近似度参数进行比较,获得第二比较结果;
依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值。
可选地,所述基于所述第一比较结果,确定所述标签值的稳定性结果,包括:
若所述概率之和不大于所述预设容忍参数,确定所述标签值的取值为稳定性;
若所述概率之和大于所述预设容忍参数,确定所述标签值的取值为不稳定性。
可选地,所述方法还包括:
若所述标签值的取值为不稳定性,将所述标签值的更新频率设置为不大于预设频率。
可选地,所述依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值,包括:
如果所述目标转移概率不小于所述预设近似度参数,将所述标签值在所述第二时刻的预测值确定为所述预设取值。
一种用户画像标签值分析装置,所述装置包括:
集合建立单元,用于建立用户画像标签的样本集合,所述样本集合包括用户叶标签对应的标签值、间隔时间和当前时间的关联统计数据;
矩阵建立单元,用于根据所述样本集合,建立每一个所述间隔时间的转移矩阵;
第一计算单元,用于依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;
第一比较单元,用于将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;
第一确定单元,用于基于所述第一比较结果,确定所述标签值的稳定性结果。
可选地,所述装置还包括:
第二计算单元,用于依据所述转移矩阵,计算获得每个所述标签值从第一时刻到第二时刻的转移概率值;
第三计算单元,用于计算所述转移概率的均值,得到整体的转移概率;
第四计算单元,用于根据所述整体的转移概率计算标签值取值变为预设取值的目标转移概率;
第二比较单元,用于将所述目标转移概率与预设近似度参数进行比较,获得第二比较结果;
第二确定单元,用于依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值。
可选地,所述第一确定单元具体用于:
若所述概率之和不大于所述预设容忍参数,确定所述标签值的取值为稳定性;
若所述概率之和大于所述预设容忍参数,确定所述标签值的取值为不稳定性。
可选地,所述装置还包括:
设置单元,用于若所述标签值的取值为不稳定性,将所述标签值的更新频率设置为不大于预设频率的频率数值。
可选地,所述第二确定单元具体用于:
如果所述目标转移概率不小于所述预设近似度参数,将所述标签值在所述第二时刻的预测值确定为所述预设取值。
相较于现有技术,本发明提供了一种用户画像标签值分析方法及装置,通过建立用户画像标签的样本集合;根据所述样本集合,建立每一个所述间隔时间的转移矩阵;依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;基于所述第一比较结果,确定所述标签值的稳定性结果。本发明通过建立状态转移矩阵可以分析时间线上的概率趋势。从而可以应用在对标签值的稳定性分析,实现了保证了对标签值更新的时效性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种用户画像标签值分析方法的流程示意图;
图2为本发明实施例提供的一种用户画像的标签森林的示意图;
图3为本发明实施例提供的一种用户画像标签分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了便于对本发明的各个实施例进行说明,下面将本发明实施例中的术语进行解释。
用户画像:又称用户角色,是真实用户的虚拟代表,可以理解成用户特征的海量数据标签,每一个用户都是标签一套具体的取值。
马尔科夫链:其是一组具有马尔科夫性质的离散随机变量的集合。具体地,对概率空间(Ω,F,P)内以以为可数集为指数集(index set)的随机变量集合X={Xn:n>0},若随机变量的取值都在可数集S内,且随机变量的条件概率满足如下关系:
p(Xt+1·Xt,...,X1)=p(Xt+1|Xt)
则X被称为马尔科夫链,可数集S被称为状态空间(state space),马尔科夫链在状态空间内的取值称为状态。这里定义的马尔科夫链是离散时间马尔科夫链(Discrete-TimeMC,DTMC)。
在本发明实施例中用户画像标签值分析方法主要包括用户标签值预测及稳定性分析。目前用户标签值预测及稳定性分析,通产采用的方法是利用最新数据,批量的对全量用户画像标签值进行更新,缺乏预见性和目标性。主要的问题体现在,用户画像标签随时间变化的稳定性不一样,有的标签值相对稳定,有的标签值容易变化。不加区分的进行全量更新,会造成计算资源和时间的浪费。如果系统需要更新海量的用户画像标签值,全量回归的计算时间可能落后于新数据生成时间,导致方法失效。智能依据现有的数据更新用户画像标签,缺乏判断性,分析决策模型的计算出结果落后于现实。缺乏对标签稳定性的全局衡量,无法发现频繁变化、标签取值不稳定的叶标签节点。在使用这些标签值进行数据分析时,容易误判。
因此,在本发明实施例中通过历史数据分析来预测某一画像标签未来某一时间点取值的概率。还可以用作标签值稳定性的评判,即当前的用户标签值是不是经常变动的,为数据分析模型建立提供依据,频繁变动的标签需要频繁进行更新维护,否则不应作为重要决策依据。
参见图1,其示出了本发明实施例提供的一种用户画像标签值分析方法的流程示意图,该方法包括:
S101、建立用户画像标签的样本集合。
所述样本集合包括用户叶标签对应的标签值、间隔时间和当前时间的关联统计数据。
即已建立起用户画像存储体系,表现为多个标签树组成的标签森林。如图2所示,其示出了本发明实施例提供的一种用户画像的标签森林的示意图。
其中,一级标签为根标签,其所有子标签组成一个标签树。每个用户的用户画像都是该森林叶节点标签的具体取值的集合。以图2为例,用户画像的标签可以表示为(C1,C2,B2,…,Ci,Cj,CK)。
并且,信息系统用户数量多,存在大量的用户。每个叶标签的取值是有限个,系统已存在一定时间的大量用户基础数据,并能从系统中获取用户的历史画像。
建立的样本集合。对于每一个用户叶标签A,其取值为{a1,a2,...,an}。间隔时间Δt取值为日、旬、月、季、年(需要说明的是,此处只是对间隔时间的举例说明,实际应用中可以根据需要扩充,如半月、半年等时间间隔),记为Δt1,Δt2,Δt3,Δt4,Δt5。当前时间为T,取 时间点的用户标签值作为统计源。其中,表示时间向下取整,nΔt表示对于Δt这一间隔时间取样本的个数,需要根据系统历史数据储备情况合理制定。依据此方法,对于每一个Δt取值,确定取值时间点集合。
S102、依据所述样本集合,建立每一个所述间隔时间的转移矩阵。
建立每一个Δt初始转移矩阵P。
其中P(aij)表示经过Δt这一间隔,用户画像值由ai迁移至aj的概率。/>表示第n个取样点上用户画像值由ai迁移至aj的概率,等于从/>时刻到/>从ai迁移至aj的用户数量除以全部的用户数量。)。
S103、依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;
S104、将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;
S105、基于所述第一比较结果,确定所述标签值的稳定性结果。
其中,所述基于所述第一比较结果,确定所述标签值的稳定性结果,包括:若所述概率之和不大于所述预设容忍参数,确定所述标签值的取值为稳定性;若所述概率之和大于所述预设容忍参数,确定所述标签值的取值为不稳定性。对应的,若所述标签值的取值为不稳定性,将所述标签值的更新频率设置为不大于预设频率。
基于上述计算得到的每个时间间隔Δtn对应的转移矩阵Pn。接下来根据Pn
根据系统定义的预设容忍参数即定义的稳定容忍度参数λ11∈[0,1],表示对于系统对于用户画像标签值发生转移的可容忍度,λ1越大,表示可接受的用户画像标签值发生转移的可容忍度越高。
从Q1到Q5,逐个和λ1比较大小。首个大于λ1的Qn表示用户画像标签值发生转移的概率超过了可容忍度,即:在n代表的时间间隔(日、旬、月、季、年),标签值不稳定。如果Qn≤λ1,则表示该标签取值稳定,不易发生变化。
发现对于时间间隔n,标签值不稳定可以有以下几种应用场景:第一,可指导系统合理设置标签更新频率,在n间隔表现为不稳定时,建议标签更新频率小于等于n。第二,超过n没有更新过的标签值,不建议作为决策依据。第三,不同的标签值n值可能不同,对于稳定的和不稳定的标签可以差异设置更新频率,不稳定的更新频率高一些,稳定的更新频率低一些。避免全量标签值更新增加计算成本和时间成本。
在本申请的另一实施例中还包括:
依据所述转移矩阵,计算获得每个所述标签值从第一时刻到第二时刻的转移概率值;
计算所述转移概率的均值,得到整体的转移概率;
根据所述整体的转移概率计算标签值取值变为预设取值的目标转移概率;
将所述目标转移概率与预设近似度参数进行比较,获得第二比较结果;
其中,所述依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值,包括:如果所述目标转移概率不小于所述预设近似度参数,将所述标签值在所述第二时刻的预测值确定为所述预设取值。
举例说明,计算转移矩阵的时间点为T,要预测的时间点为T′。对于Δtn所要叠加的周期个数mn分别用P1至P5计算从T时刻到T′时刻发生转移的概率其中,/>表示P1的m1次幂。整体的转移概率PT'为利用各周期计算出转移概率的均值:
其中,在本实施例中n=5,应用系统可以根据需要,增加间隔种类n的大小。据此,标签值i从T到T′时刻,取值变为j的概率为PT'(aij)。
根据系统预设近似度参数即定义的近似度参数λ2,λ2∈(0.5,1],标识根据概率值对标签进行近似取值的容忍度,即满足PT'(aij)≥λ2,则T时刻标签值为i的客户,在T′时刻标签值近似取值为j。λ22∈[0.5,1],表示根据概率值对标签进行近似取值的容忍度,即满足PT'(aij)≥λ2,则T时刻标签值为i的用户,在T′时刻近似取值为j。λ2越接近1,近似度越高,预测的标签值越准确。
T′时刻,取值为j的用户群体的数量为等于在T时刻从各个状态迁移至j的用户数量的总和。
通过本发明可以针对某一具体用户,预测其未来标签取值,也可用来估算未来某个时刻,取某一特定标签值的用户群体多少,有利于抓住提前量,为未来决策行行动提前准备。
本发明通过建立了状态转移矩阵,利用分析时间线上的概率趋势。同时,本发明对马尔科夫链进行了优化,不单纯仅与前以周期关联,而是综合了前n个周期的客观影响因素。初始转移矩阵的概率通过前推n个周期的转移矩阵取均值计算出来,有助结果的客观转确性。同样,进行标签值预测时,也应用了这种方法,对以不同间隔周期计算的转移矩阵进行均值处理,有利于纳入综合因素,提升结果准确性。
并且本发明提供的用户画像标签值分析方法可以应用在,第一对标签值的稳定性进行分析,将稳定标签和不稳定标签区分开来,有助于合理设计标签更新周期,避免不必要的全量标签更新,减少计算成本。对于不稳定的标签可以找到不稳定的最小周期,为合理建立基于用户画像的分析决策模型提供参考依据。通过转移矩阵预测未来画像取值概率。既可以针对某一具体用户,预测其未来标签取值,也可用来估算未来某个时刻,取某一特定标签值的用户群体多少。有利于抓住提前量,为未来决策行动提前准备。
在本发明实施例中还提供了一种用户画像标签值分析装置,参见图3,包括:
集合建立单元10,用于建立用户画像标签的样本集合,所述样本集合包括用户叶标签对应的标签值、间隔时间和当前时间的关联统计数据;
矩阵建立单元20,用于根据所述样本集合,建立每一个所述间隔时间的转移矩阵;
第一计算单元30,用于依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;
第一比较单元40,用于将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;
第一确定单元50,用于基于所述第一比较结果,确定所述标签值的稳定性结果。
在上述实施例的基础上,所述装置还包括:
第二计算单元,用于依据所述转移矩阵,计算获得每个所述标签值从第一时刻到第二时刻的转移概率值;
第三计算单元,用于计算所述转移概率的均值,得到整体的转移概率;
第四计算单元,用于根据所述整体的转移概率计算标签值取值变为预设取值的目标转移概率;
第二比较单元,用于将所述目标转移概率与预设近似度参数进行比较,获得第二比较结果;
第二确定单元,用于依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值。
在上述实施例的基础上,所述第一确定单元具体用于:
若所述概率之和不大于所述预设容忍参数,确定所述标签值的取值为稳定性;
若所述概率之和大于所述预设容忍参数,确定所述标签值的取值为不稳定性。
在上述实施例的基础上,所述装置还包括:
设置单元,用于若所述标签值的取值为不稳定性,将所述标签值的更新频率设置为不大于预设频率的频率数值。
在上述实施例的基础上,所述第二确定单元具体用于:
如果所述目标转移概率不小于所述预设近似度参数,将所述标签值在所述第二时刻的预测值确定为所述预设取值。
本发明提供了一种用户画像标签值分析装置,集合建立单元通过建立用户画像标签的样本集合;矩阵建立单元根据所述样本集合,建立每一个所述间隔时间的转移矩阵;第一计算单元依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;第一比较单元将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;第一确定单元基于所述第一比较结果,确定所述标签值的稳定性结果。本发明通过建立状态转移矩阵可以分析时间线上的概率趋势。从而可以应用在对标签值的稳定性分析,实现了保证了对标签值更新的时效性和准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种用户画像标签值分析方法,其特征在于,所述方法包括:
建立用户画像标签的样本集合,所述样本集合包括用户叶标签对应的标签值、间隔时间和当前时间的关联统计数据;其中,所述用户画像表现为多个标签树组成的标签森林,每一个所述标签树的每一个分支的最后一级叶标签为一个用户叶标签;所述当前时间的关联统计数据由当前时间每间隔一个所述间隔时间向下取整所述用户叶标签对应的标签值组成;
根据所述样本集合,建立每一个所述间隔时间的转移矩阵;
依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;
将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;
基于所述第一比较结果,确定所述标签值的稳定性结果;
其中,通过如下公式建立每一个所述间隔时间的转移矩阵:
所述P表示转移矩阵,所述P(aij)表示经过Δt这一间隔时间,用户叶标签对应的标签值由ai迁移至aj的概率;
表示第n个取样点上用户画像值由ai迁移至aj的概率,等于从/>时刻到/>时刻从ai迁移至aj的用户数量除以全部的用户数量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
依据所述转移矩阵,计算获得每个所述标签值从第一时刻到第二时刻的转移概率值;
计算所述转移概率的均值,得到整体的转移概率;
根据所述整体的转移概率计算标签值取值变为预设取值的目标转移概率;
将所述目标转移概率与预设近似度参数进行比较,获得第二比较结果;
依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一比较结果,确定所述标签值的稳定性结果,包括:
若所述概率之和不大于所述预设稳定性容忍参数,确定所述标签值的取值为稳定性;
若所述概率之和大于所述预设稳定性容忍参数,确定所述标签值的取值为不稳定性。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述标签值的取值为不稳定性,将所述标签值的更新频率设置为不大于预设频率。
5.根据权利要求2所述的方法,其特征在于,所述依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值,包括:
如果所述目标转移概率不小于所述预设近似度参数,将所述标签值在所述第二时刻的预测值确定为所述预设取值。
6.一种用户画像标签值分析装置,其特征在于,所述装置包括:
集合建立单元,用于建立用户画像标签的样本集合,所述样本集合包括用户叶标签对应的标签值、间隔时间和当前时间的关联统计数据;其中,所述用户画像表现为多个标签树组成的标签森林,每一个所述标签树的每一个分支的最后一级叶标签为一个用户叶标签;所述当前时间的关联统计数据由当前时间每间隔一个所述间隔时间向下取整所述用户叶标签对应的标签值组成;
矩阵建立单元,用于根据所述样本集合,建立每一个所述间隔时间的转移矩阵;
第一计算单元,用于依据所述转移矩阵,计算获得标签值发生状态转移的概率之和;
第一比较单元,用于将所述概率之和与预设稳定性容忍参数进行比较,获得第一比较结果;
第一确定单元,用于基于所述第一比较结果,确定所述标签值的稳定性结果;
其中,通过如下公式建立每一个所述间隔时间的转移矩阵:
所述P表示转移矩阵,所述P(aij)表示经过Δt这一间隔时间,用户叶标签对应的标签值由ai迁移至aj的概率;
表示第n个取样点上用户画像值由ai迁移至aj的概率,等于从/>时刻到/>时刻从ai迁移至aj的用户数量除以全部的用户数量。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二计算单元,用于依据所述转移矩阵,计算获得每个所述标签值从第一时刻到第二时刻的转移概率值;
第三计算单元,用于计算所述转移概率的均值,得到整体的转移概率;
第四计算单元,用于根据所述整体的转移概率计算标签值取值变为预设取值的目标转移概率;
第二比较单元,用于将所述目标转移概率与预设近似度参数进行比较,获得第二比较结果;
第二确定单元,用于依据所述第二比较结果,确定在第二时刻的所述标签值对应的预测值。
8.根据权利要求6所述的装置,其特征在于,所述第一确定单元具体用于:
若所述概率之和不大于所述预设稳定性容忍参数,确定所述标签值的取值为稳定性;
若所述概率之和大于所述预设稳定性容忍参数,确定所述标签值的取值为不稳定性。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
设置单元,用于若所述标签值的取值为不稳定性,将所述标签值的更新频率设置为不大于预设频率的频率数值。
10.根据权利要求7所述的装置,其特征在于,所述第二确定单元具体用于:
如果所述目标转移概率不小于所述预设近似度参数,将所述标签值在所述第二时刻的预测值确定为所述预设取值。
CN202010324872.9A 2020-04-23 2020-04-23 一种用户画像标签值分析方法及装置 Active CN111522828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010324872.9A CN111522828B (zh) 2020-04-23 2020-04-23 一种用户画像标签值分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010324872.9A CN111522828B (zh) 2020-04-23 2020-04-23 一种用户画像标签值分析方法及装置

Publications (2)

Publication Number Publication Date
CN111522828A CN111522828A (zh) 2020-08-11
CN111522828B true CN111522828B (zh) 2023-08-01

Family

ID=71910978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010324872.9A Active CN111522828B (zh) 2020-04-23 2020-04-23 一种用户画像标签值分析方法及装置

Country Status (1)

Country Link
CN (1) CN111522828B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750731A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 一种获取完整用户画像的方法及装置
CN105824912A (zh) * 2016-03-15 2016-08-03 平安科技(深圳)有限公司 基于用户画像的个性化推荐方法和装置
WO2018103622A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 信息投放控制方法、装置及存储介质
CN110674178A (zh) * 2019-08-30 2020-01-10 阿里巴巴集团控股有限公司 构建用户画像标签的方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750731A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 一种获取完整用户画像的方法及装置
CN105824912A (zh) * 2016-03-15 2016-08-03 平安科技(深圳)有限公司 基于用户画像的个性化推荐方法和装置
WO2018103622A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 信息投放控制方法、装置及存储介质
CN110674178A (zh) * 2019-08-30 2020-01-10 阿里巴巴集团控股有限公司 构建用户画像标签的方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚华彦 ; 张鑫金 ; 何萍 ; .基于大数据的患者画像标签体系构建方法及应用研究.中国卫生信息管理杂志.2019,(第06期), 25-29. *

Also Published As

Publication number Publication date
CN111522828A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN110135630B (zh) 基于随机森林回归和多步寻优的短期负荷需求预测方法
WO2019001359A1 (zh) 数据处理方法和数据处理装置
CN106600037B (zh) 一种基于主成分分析的多参量辅助负荷预测方法
CN114330935B (zh) 基于多种结合策略集成学习的新能源功率预测方法和系统
CN110781595B (zh) 能源使用效率pue的预测方法、装置、终端及介质
CN112308281A (zh) 一种温度信息预测方法及装置
CN112288163A (zh) 目标对象的目标因子预测方法及相关设备
CN116307215A (zh) 一种电力系统的负荷预测方法、装置、设备及存储介质
CN110807508B (zh) 计及复杂气象影响的母线峰值负荷预测方法
Qiao et al. Predicting building energy consumption based on meteorological data
CN111522828B (zh) 一种用户画像标签值分析方法及装置
CN116629918A (zh) 一种基于跨境电商的用户消费预测方法及系统
US11651271B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using likelihood ratios
US11636377B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using time series decomposing and clustering
CN116608551A (zh) 冷负荷预测方法和装置、电子设备及存储介质
CN106816871B (zh) 一种电力系统状态相似性分析方法
JP2017153259A (ja) 電力需要予測装置、及び電力需要予測方法
JPH11126102A (ja) ガス需要量の予測方法
CN117236571B (zh) 一种基于物联网的规划方法和系统
Yu et al. Research on Network Traffic Monitoring Based on Time Series Prediction with Information Theoretic Entropy Value Judgment and Improved Moving Average Method
CN116776160B (zh) 一种数据处理方法和相关装置
CN110874612B (zh) 时段预测方法、装置、计算机设备和存储介质
Manepalli et al. Map reduce technique for parallel-automata analysis of large scale rainfall data
CN116361136A (zh) 一种服务器性能数据预测方法、装置、设备及存储介质
CN115481794A (zh) 一种规上工业增加值增速预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant