CN111159204B - 一种通过配置的方式生成标签的方法及系统 - Google Patents

一种通过配置的方式生成标签的方法及系统 Download PDF

Info

Publication number
CN111159204B
CN111159204B CN202010000755.7A CN202010000755A CN111159204B CN 111159204 B CN111159204 B CN 111159204B CN 202010000755 A CN202010000755 A CN 202010000755A CN 111159204 B CN111159204 B CN 111159204B
Authority
CN
China
Prior art keywords
index
user
basic
data
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010000755.7A
Other languages
English (en)
Other versions
CN111159204A (zh
Inventor
肖燏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongfang Jinxin Technology Co.,Ltd.
Original Assignee
Beijing Dongfang Jinxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dongfang Jinxin Technology Co ltd filed Critical Beijing Dongfang Jinxin Technology Co ltd
Priority to CN202010000755.7A priority Critical patent/CN111159204B/zh
Publication of CN111159204A publication Critical patent/CN111159204A/zh
Application granted granted Critical
Publication of CN111159204B publication Critical patent/CN111159204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种通过配置的方式生成标签的方法及系统,其包括:用户基础多维指标传输至预先设置的用户衍生指标数据计算模块内,用户衍生指标数据计算模块对接收到的用户基础多维指标数据进行指标扁平化,得到用户指标宽表;将用户基础指标宽表同指标离散化参数相关联,对用户指标宽表中的每一个用户的指标进行离散化,得到用户基础标签,并存储为用户标签位图的形式;用户根据相应用户ID查询用户基础指标宽表和用户标签位图,获得每个用户的基础标签。本发明实现了对业务流程的大幅度简化,提高了数据对业务的支持效率。

Description

一种通过配置的方式生成标签的方法及系统
技术领域
本发明涉及一种用户标签生成方法,特别是关于一种通过配置的方式生成标 签的方法及系统。
背景技术
为满足个性化客户服务和精准营销的需求,需要基于用户标签对用户进行画 像。用户标签是根据用户的各种静态和动态属性经过一系列复杂的运算而生成的, 并且需要根据用户分析需求的变化进行不断调整,所以用户标签和基于标签而形 成的用户画像不是静态的,而是不断变化的。
计算用户标签数据的传统方法是基于数据仓库提供的关于用户的多维度、不 同粒度的属性数据,根据当前的用户分析需求,通过编写ETL脚本,计算出所需 的用户标签数据。当数据仓库所提供的用户属性发生变化,或者用户分析的需求 发生变化时,需要修改或者增加新的ETL脚本,以保证标签数据的正确性,并实 现对需求变化的及时响应。
采用传统的采用ETL脚本方式计算用户标签,随着标签数量的增长,维护的 成本将急剧升高,需要耗费大量的人力使标签数据满足不断变化的用户分析需求, 并且很难保证计算的准确性和时效性。
发明内容
针对传统的基于ETL脚本的用户标签计算方法难以满足不断变化的用户分析 需求,本发明的目的是提供一种通过配置的方式生成标签的方法及系统,利用这 个系统,只需要以配置参数的方式描述用户标签计算的数据来源(用户基础指标)、 衍生指标的计算规则和用户标签的计算规则,就可以实现用户标签的自动计算, 不再需要开发和维护大量的用户标签计算脚本,这样能有效降低用户标签计算的 开发和维护成本,提高标签计算的效率。
为实现上述目的,本发明采取以下技术方案:一种通过配置的方式生成标签 的方法,其包括以下步骤:1)用户基础多维指标传输至预先设置的用户衍生指标 数据计算模块内,用户衍生指标数据计算模块对接收到的用户基础多维指标数据 进行指标扁平化,得到用户指标宽表;2)将用户基础指标宽表同指标离散化参数 相关联,对用户指标宽表中的每一个用户的指标进行离散化,得到用户基础标签, 并存储为用户标签位图的形式;3)用户根据相应用户ID查询用户基础指标宽表 和用户标签位图,获得每个用户的基础标签。
进一步,所述用户基础多维指标是指存放在数据仓库中的可用于用户分析的 用户基本属性数据;这些数据包括明细数据以及按照不同维度的汇总数据。
进一步,所述指标扁平化是指将用户基础多维指标数据转化为能够用于用户 画像分析的单一维度指标数据的过程,包括以下步骤:1.1)加载用户指标扁平化 参数,并判断是否有未加载的用户基础多维指标数据表,若有未加载,则进入步 骤1.2),若没有未加载,则进入步骤1.5);其中,用户指标扁平化参数包括用户 指标扁平化参数的结构和指标扁平化规则;1.2)继续加载用户基础多维指标数据 表,并根据用户指标扁平化参数的结构和指标扁平化规则计算各维度实例的指标 计算规则;1.3)将各维度的指标扁平化规则同用户基础多维指标数据相关联;1.4) 遍历用户基础多维指标数据中的每条记录,根据相关联的基础指标数据形式中的 指标计算规则计算计算衍生指标;1.5)合并所有已计算出的衍生指标数据集,将 合并后的衍生指标数据集保存为用户指标宽表。
进一步,所述步骤1.2)中,将指标扁平化规则按照指标维度进行分组,得到 各维度实例的指标计算规则:
指标维度1—>[(指标字段名称a,指标计算方式a),(指标字段名称b,指标 计算方式b,……)];
指标维度2—>[(指标字段名称a,指标计算方式a),(指标字段名称c,指标计 算方式c,……)]。
进一步,所述步骤1.3)中,关联方法为:使用用户基础多维指标数据中的维 度字段与按照指标维度分组后的指标计算规则进行匹配,得到的关联后的基础指 标数据形式为:
(用户ID,(用户基础指标记录,指标扁平化规则))。
进一步,所述步骤1.4)中,衍生指标计算包括以下两种情况:
(a)对于指标计算规则中不需要参考其他基础指标数据即可进行计算的衍生 指标,即计算公式中的所有变量都能从当前基础指标记录中获得,则直接计算这 些衍生指标;
(b)对于指标计算规则中需要参考属于同一用户ID的其他基础指标数据才 可计算的衍生指标,在遍历用户基础指标数据集的过程中,在遇到所需的基础指 标记录时,从中获得所需的基础指标数据,计算衍生指标中间结果,待遍历完成, 则得到所有用户ID的衍生指标的最终结果。
进一步,所述步骤2)中,指标离散化是将用户衍生指标中的连续值按照既定 的规则转化为离散值得过程,包括以下步骤:2.1)加载用户指标离散化参数,并 加载用户指标宽表;2.2)遍历用户衍生指标宽表,根据用户指标离散化参数对用 户衍生指标进行离散化,得到用户标签数据集;2.3)将用户标签数据集转化为标 签位图:假设用户基础指标数据中共有N个用户的指标数据,经过指标扁平化和指 标离散化后,共计算得到M种不同的标签,则为这M种标签各自创建一个标签位图, 每个标签位图有N个标志位,分别对应N个用户,对于从1至N的每个标志位,如果 对应的用户被打上了这个标签,则将该标志位置位1,否则将该标志位置为0,最 后得到的标签位图。
进一步,所述步骤2.2)中,离散化的方法为:2.2.1)取用户衍生指标记录 中的衍生指标名称集合与用户指标离散化参数中的衍生指标名称集合的公共部分; 2.2.2)对于公共部分中的每一个衍生指标,根据用户指标离散化参数中和该指标 对应的离散化算法和离散化参数,对该指标的值进行离散化。
一种通过配置的方式生成标签的系统,其包括用户指标宽表获取模块、用户 基础标签获取模块和查询模块;所述用户指标宽表获取模块为用户基础多维指标 传输至预先设置的用户衍生指标数据计算模块内,用户衍生指标数据计算模块对 接收到的用户基础多维指标数据进行指标扁平化,得到用户指标宽表;所述用户 基础标签获取模块将用户基础指标宽表同指标离散化参数相关联,对用户指标宽 表中的每一个用户的指标进行离散化,得到用户基础标签,并存储为用户标签位 图的形式;所述查询模块是用户根据相应用户ID查询用户基础指标宽表和用户标 签位图,获得每个用户的基础标签。
进一步,所述指标扁平化是指将用户基础多维指标数据转化为能够用于用户 画像分析的单一维度指标数据的过程,包括以下步骤:1.1)加载用户指标扁平化 参数,并判断是否有未加载的用户基础多维指标数据表,若有未加载,则进入步 骤1.2),若没有未加载,则进入步骤1.5);其中,用户指标扁平化参数包括用户 指标扁平化参数的结构和指标扁平化规则;1.2)继续加载用户基础多维指标数据 表,并根据用户指标扁平化参数的结构和指标扁平化规则计算各维度实例的指标 计算规则;1.3)将各维度的指标扁平化规则同用户基础多维指标数据相关联;1.4) 遍历用户基础多维指标数据中的每条记录,根据相关联的基础指标数据形式中的 指标计算规则计算计算衍生指标;1.5)合并所有已计算出的衍生指标数据集,将 合并后的衍生指标数据集保存为用户指标宽表。
本发明由于采取以上技术方案,其具有以下优点:1、本发明将不同标签的计 算过程进行归纳提炼,形成一个通用的标签计算方法,并集成各种常用的标签计 算算法,使用户能通过设置或调整用户标签计算程序的配置参数,实现用户标签 的快速计算和对需求变化的快速响应。2、本发明用户标签数据的计算采用了大规 模并行计算技术,大幅度提高了标签计算的效率。3、本发明能有效降低用户标签 计算的开发和维护成本。4、本发明利用系统内置的经过反复测试的标签算法,提 高了标签计算结果的可靠性。5、本发明利用位图的形式存储用户标签数据,为根 据标签进行快速的用户分群提供了支持。
综上,本发明为业务用户在无需技术人员的参与的情况下,直接基于数据仓 库中的基础指标,使用业务语言设计用户标签,并实现对符合标签的用户群进行 快速检索提供了可行的方案,实现了对业务流程的大幅度简化,提高了数据对业 务的支持效率。
附图说明
图1是本发明方法的整体流程示意图;
图2是本发明的指标扁平化处理流程示意图;
图3是本发明的离散化流程示意图。
具体实施方式
下面结合附图和示例对本发明进行详细的描述。
如图1所示,本发明提供一种通过配置的方式生成标签的方法,其包括以下 步骤:
1)计算用户衍生指标。用户基础多维指标传输至预先设置的用户衍生指标数 据计算模块内,用户衍生指标数据计算模块对接收到的用户基础多维指标数据进 行指标扁平化,得到用户指标宽表;
其中,用户基础多维指标是指存放在数据仓库中的可用于用户分析的用户基 本属性数据,即以多维度形式存储的用户基础指标;这些数据可以包括明细数据 以及按照不同维度的汇总数据,可以支持多维分析;
指标扁平化是指将用户基础多维指标数据转化为能够用于用户画像分析的单 一维度指标数据的过程;如图2所示,具体包括以下步骤:
1.1)加载用户指标扁平化参数,并判断是否有未加载的用户基础多维指标数 据表,若有未加载,则进入步骤1.2),若没有未加载,则进入步骤1.5);
用户指标扁平化参数包括用户指标扁平化参数的结构(如表1所示)和指标 扁平化规则(如表2所示);
表1用户指标扁平化参数的结构
Figure BDA0002353274160000041
Figure BDA0002353274160000051
表2指标扁平化规则表
Figure BDA0002353274160000052
1.2)继续加载用户基础多维指标数据表,并根据用户指标扁平化参数的结构 和指标扁平化规则计算各维度实例的指标计算规则;
由于用户基础指标是以多维度形式存储的,例如个人资产指标,就可以具备 时间和资产类别维度,即不同种类的资产在不同时间的价值。各维度实例就是由 各个维度的取值构成的能唯一确定一个具体指标值的向量。
各维度实例的指标计算规则为:
将指标扁平化规则按照指标维度进行分组,得到各维度实例的指标计算规则:
指标维度1—>[(指标字段名称a,指标计算方式a),(指标字段名称b,指标 计算方式b,……)];
指标维度2—>[(指标字段名称a,指标计算方式a),(指标字段名称c,指标 计算方式c,……)];
1.3)将各维度的指标扁平化规则同用户基础多维指标数据相关联;
关联方法为:由于用户基础多维指标数据中包括完整的指标维度字段,所以 可以使用用户基础多维指标数据中的维度字段与按照指标维度分组后的指标计算 规则进行匹配,得到的关联后的基础指标数据形式为:
(用户ID,(用户基础指标记录,指标扁平化规则));
1.4)遍历用户基础多维指标数据中的每条记录,根据相关联的基础指标数据 形式中的指标计算规则计算计算衍生指标;
衍生指标计算包括以下两种情况:
(a)对于指标计算规则中不需要参考其他基础指标数据即可进行计算的衍生 指标,即计算公式中的所有变量都可从当前基础指标记录中获得,则直接计算这 些衍生指标。
(b)对于指标计算规则中需要参考属于同一用户ID的其他基础指标数据才 可计算的衍生指标,在遍历用户基础指标数据集的过程中,在遇到所需的基础指 标记录时,从中获得所需的基础指标数据,计算衍生指标中间结果,待遍历完成, 则得到所有用户ID的衍生指标的最终结果。
1.5)合并所有已计算出的衍生指标数据集,将合并后的衍生指标数据集保存 为用户指标宽表;
合并所有已计算出的衍生指标数据集的方法为:
假设衍生指标数据集A的内容为:
(用户ID,(指标A1,指标A2,……));
衍生指标数据集B的内容为:
(用户ID,(指标B1,指标B2,……));
则合并后的衍生指标数据集为:
(用户ID,(指标A1,指标A2,……,指标B1,指标B2,……))。
2)计算用户标签:将用户指标宽表同指标离散化参数相关联,对用户指标宽 表中的每一个用户的指标进行离散化,得到用户基础标签,并存储为用户标签位 图的形式;
其中,指标离散化是将用户衍生指标中的连续值按照既定的规则转化为离散 值得过程。考虑到用户衍生指标中存在一些枚举形式的数据,“指标离散化”也支 持对这些枚举值通过映射表的方式进行数值转换。
如图3所示,具体处理方法包括以下步骤:
2.1)加载用户指标离散化参数,并加载用户指标宽表;
用户指标离散化参数的结构如表3所示;
表3用户指标离散化参数的结构
Figure BDA0002353274160000061
用户指标离散化参数加载之后的形式为:
(衍生指标名称,(离散化算法,离散化算法参数,用户标签组));
其中,离散化算法包括自定义分段、固定长度分段、代码映射;
2.2)遍历用户衍生指标宽表,根据用户指标离散化参数对用户衍生指标进行 离散化,得到用户标签数据集;
离散化的方法为:
2.2.1)取用户衍生指标记录中的衍生指标名称集合与用户指标离散化参数中 的衍生指标名称集合的公共部分。
2.2.2)对于公共部分中的每一个衍生指标,根据用户指标离散化参数中和该 指标对应的离散化算法和离散化参数,对该指标的值进行离散化:
例如,对于衍生指标A,对应的离散化算法为“用户定义分段”,且分段参数 为:(-100,0],(0,10],(10,20],(20,100],那么对于用户X的衍生指标A,如果指 标值为5,则根据分段参数,落在第1个区间,离散化后的值为1,且如果对应的 用户标签组为“标签组001”,则用户X的衍生指标A离散化后,产生的标签为: “标签组001”+“1”,即“标签组00101”,这就是用户指标离散化后得到的用户 X的一个标签。
2.3)将用户标签数据集转化为标签位图:
假设用户基础指标数据中共有N个用户的指标数据,经过指标扁平化和指标 离散化后,共计算得到M种不同的标签,则为这M种标签各自创建一个标签位图, 每个标签位图有N个标志位,分别对应N个用户,对于从1至N的每个标志位, 如果对应的用户被打上了这个标签,则将该标志位置位1,否则将该标志位置为0, 最后得到的标签位图为以下形式:
标签1:001000111000……01(共N个标志位)
标签2:111010101010……00
……
标签M:000001111100……10
使用标签位图,可以实现对具备指定一组标签的用户的快速检索。
3)用户根据相应用户ID查询用户基础指标宽表和用户标签位图,获得每个 用户的基础标签。
本发明还提供一种通过配置的方式生成标签的系统,其包括用户指标宽表获 取模块、用户基础标签获取模块和查询模块;
用户指标宽表获取模块为用户基础多维指标传输至预先设置的用户衍生指标 数据计算模块内,用户衍生指标数据计算模块对接收到的用户基础多维指标数据 进行指标扁平化,得到用户指标宽表;
用户基础标签获取模块将用户基础指标宽表同指标离散化参数相关联,对用 户指标宽表中的每一个用户的指标进行离散化,得到用户基础标签,并存储为用 户标签位图的形式;
查询模块是用户根据相应用户ID查询用户基础指标宽表和用户标签位图,获 得每个用户的基础标签。
上述实施例中,指标扁平化是指将用户基础多维指标数据转化为能够用于用 户画像分析的单一维度指标数据的过程,包括以下步骤:
1.1)加载用户指标扁平化参数,并判断是否有未加载的用户基础多维指标数 据表,若有未加载,则进入步骤1.2),若没有未加载,则进入步骤1.5);其中, 用户指标扁平化参数包括用户指标扁平化参数的结构和指标扁平化规则;
1.2)继续加载用户基础多维指标数据表,并根据用户指标扁平化参数的结构 和指标扁平化规则计算各维度实例的指标计算规则;
1.3)将各维度的指标扁平化规则同用户基础多维指标数据相关联;
1.4)遍历用户基础多维指标数据中的每条记录,根据相关联的基础指标数据 形式中的指标计算规则计算计算衍生指标;
1.5)合并所有已计算出的衍生指标数据集,将合并后的衍生指标数据集保存 为用户指标宽表。
综上,本发明采用多维指标表的形式存储用户基础指标数据,通过指标扁平 化参数表的形式定义用户衍生指标的数据来源和计算规则。采用通用的用户衍生 指标计算模块根据定义好的指标扁平化参数表以无需编写脚本的方式实现用户衍 生指标的批量快速计算,提高了用户指标的运算效率,极大地降低了系统开发和 维护成本。通过用户指标离散化参数表的形式定义计算用户标签的数据来源及计 算规则(即离散化算法)。采用通用的用户标签计算模块根据定义好的用户指标离 散化参数表以无需编写脚本的方式实现用户标签的批量快速计算,提高了用户标 签的运算效率,极大地降低了系统开发和维护成本。采用用户标签位图的形式存 储用户标签数据,可以极大地提高对具备某一组标签的用户群的检索效率。
本系统使用指标扁平化参数表和指标离散化参数表对用户标签的离散化方法 进行配置,并使用通用的用户衍生指标和用户标签运算模块实现用户衍生指标和 标签的计算,为业务用户在无需技术人员的参与的情况下,直接基于数据仓库中 的基础指标,使用业务语言设计用户标签,并实现对符合标签的用户群进行快速 检索提供了可行的方案,实现了对业务流程的大幅度简化,提高了数据对业务的 支持效率。
基于本发明,还可以设计实现由最终业务用户(用户数据分析人员)直接操 作的图形化用户标签管理系统,使用户能够直接基于数据仓库中的基础指标使用 业务语言设计用户标签,进一步简化业务流程,提高数据对业务的支持效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算 机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件 方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用 程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上 实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的 流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框 图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。 可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可 编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据 处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或 方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以 特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令 产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或 方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得 在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从 而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多 个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述,仅为本 发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种通过配置的方式生成标签的方法,其特征在于包括以下步骤:
1)用户基础多维指标传输至预先设置的用户衍生指标数据计算模块内,用户衍生指标数据计算模块对接收到的用户基础多维指标数据进行指标扁平化,得到用户指标宽表;
2)将用户基础指标宽表同指标离散化参数相关联,对用户指标宽表中的每一个用户的指标进行离散化,得到用户基础标签,并存储为用户标签位图的形式;
3)用户根据相应用户ID查询用户基础指标宽表和用户标签位图,获得每个用户的基础标签;
所述指标扁平化是指将用户基础多维指标数据转化为能够用于用户画像分析的单一维度指标数据的过程,包括以下步骤:
1.1)加载用户指标扁平化参数,并判断是否有未加载的用户基础多维指标数据表,若有未加载,则进入步骤1.2),若没有未加载,则进入步骤1.5);其中,用户指标扁平化参数包括用户指标扁平化参数的结构和指标扁平化规则;
1.2)继续加载用户基础多维指标数据表,并根据用户指标扁平化参数的结构和指标扁平化规则计算各维度实例的指标计算规则;
1.3)将各维度的指标扁平化规则同用户基础多维指标数据相关联;
1.4)遍历用户基础多维指标数据中的每条记录,根据相关联的基础指标数据形式中的指标计算规则计算衍生指标;
1.5)合并所有已计算出的衍生指标数据集,将合并后的衍生指标数据集保存为用户指标宽表。
2.如权利要求1所述方法,其特征在于:所述用户基础多维指标是指存放在数据仓库中的可用于用户分析的用户基本属性数据;这些数据包括明细数据以及按照不同维度的汇总数据。
3.如权利要求1所述方法,其特征在于:所述步骤1.2)中,将指标扁平化规则按照指标维度进行分组,得到各维度实例的指标计算规则:
指标维度1—>[(指标字段名称a,指标计算方式a),(指标字段名称b,指标计算方式b,……)];
指标维度2—>[(指标字段名称a,指标计算方式a),(指标字段名称c,指标计算方式c,……)]。
4.如权利要求1所述方法,其特征在于:所述步骤1.3)中,关联方法为:使用用户基础多维指标数据中的维度字段与按照指标维度分组后的指标计算规则进行匹配,得到的关联后的基础指标数据形式为:
(用户ID,(用户基础指标记录,指标扁平化规则))。
5.如权利要求1所述方法,其特征在于:所述步骤1.4)中,衍生指标计算包括以下两种情况:
(a)对于指标计算规则中不需要参考其他基础指标数据即可进行计算的衍生指标,即计算公式中的所有变量都能从当前基础指标记录中获得,则直接计算这些衍生指标;
(b)对于指标计算规则中需要参考属于同一用户ID的其他基础指标数据才可计算的衍生指标,在遍历用户基础指标数据集的过程中,在遇到所需的基础指标记录时,从中获得所需的基础指标数据,计算衍生指标中间结果,待遍历完成,则得到所有用户ID的衍生指标的最终结果。
6.如权利要求1至5任一项所述方法,其特征在于:所述步骤2)中,指标离散化是将用户衍生指标中的连续值按照既定的规则转化为离散值得过程,包括以下步骤:
2.1)加载用户指标离散化参数,并加载用户指标宽表;
2.2)遍历用户衍生指标宽表,根据用户指标离散化参数对用户衍生指标进行离散化,得到用户标签数据集;
2.3)将用户标签数据集转化为标签位图:假设用户基础指标数据中共有N个用户的指标数据,经过指标扁平化和指标离散化后,共计算得到M种不同的标签,则为这M种标签各自创建一个标签位图,每个标签位图有N个标志位,分别对应N个用户,对于从1至N的每个标志位,如果对应的用户被打上了这个标签,则将该标志位置位1,否则将该标志位置为0,最后得到的标签位图。
7.如权利要求6所述方法,其特征在于:所述步骤2.2)中,离散化的方法为:
2.2.1)取用户衍生指标记录中的衍生指标名称集合与用户指标离散化参数中的衍生指标名称集合的公共部分;
2.2.2)对于公共部分中的每一个衍生指标,根据用户指标离散化参数中和该指标对应的离散化算法和离散化参数,对该指标的值进行离散化。
8.一种通过配置的方式生成标签的系统,其特征在于:包括用户指标宽表获取模块、用户基础标签获取模块和查询模块;
所述用户指标宽表获取模块为用户基础多维指标传输至预先设置的用户衍生指标数据计算模块内,用户衍生指标数据计算模块对接收到的用户基础多维指标数据进行指标扁平化,得到用户指标宽表;
所述用户基础标签获取模块将用户基础指标宽表同指标离散化参数相关联,对用户指标宽表中的每一个用户的指标进行离散化,得到用户基础标签,并存储为用户标签位图的形式;
所述查询模块是用户根据相应用户ID查询用户基础指标宽表和用户标签位图,获得每个用户的基础标签;
所述指标扁平化是指将用户基础多维指标数据转化为能够用于用户画像分析的单一维度指标数据的过程,包括以下步骤:
1.1)加载用户指标扁平化参数,并判断是否有未加载的用户基础多维指标数据表,若有未加载,则进入步骤1.2),若没有未加载,则进入步骤1.5);其中,用户指标扁平化参数包括用户指标扁平化参数的结构和指标扁平化规则;
1.2)继续加载用户基础多维指标数据表,并根据用户指标扁平化参数的结构和指标扁平化规则计算各维度实例的指标计算规则;
1.3)将各维度的指标扁平化规则同用户基础多维指标数据相关联;
1.4)遍历用户基础多维指标数据中的每条记录,根据相关联的基础指标数据形式中的指标计算规则计算衍生指标;
1.5)合并所有已计算出的衍生指标数据集,将合并后的衍生指标数据集保存为用户指标宽表。
CN202010000755.7A 2020-01-02 2020-01-02 一种通过配置的方式生成标签的方法及系统 Active CN111159204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010000755.7A CN111159204B (zh) 2020-01-02 2020-01-02 一种通过配置的方式生成标签的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010000755.7A CN111159204B (zh) 2020-01-02 2020-01-02 一种通过配置的方式生成标签的方法及系统

Publications (2)

Publication Number Publication Date
CN111159204A CN111159204A (zh) 2020-05-15
CN111159204B true CN111159204B (zh) 2020-08-11

Family

ID=70560874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010000755.7A Active CN111159204B (zh) 2020-01-02 2020-01-02 一种通过配置的方式生成标签的方法及系统

Country Status (1)

Country Link
CN (1) CN111159204B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760240B (zh) * 2020-09-02 2024-06-14 北京沃东天骏信息技术有限公司 一种生成数据模型的方法和装置
CN112818017B (zh) * 2021-01-22 2024-08-13 百果园技术(新加坡)有限公司 一种事件数据处理方法及装置
CN113177051A (zh) * 2021-05-20 2021-07-27 武汉众邦银行股份有限公司 一种数据标签动态新增维护的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764663A (zh) * 2018-05-15 2018-11-06 广东电网有限责任公司信息中心 一种电力客户画像生成管理的方法及系统
CN109101652A (zh) * 2018-08-27 2018-12-28 宜人恒业科技发展(北京)有限公司 一种标签创建和管理系统
CN109189774A (zh) * 2018-09-14 2019-01-11 南威软件股份有限公司 一种基于脚本规则的用户标签转化方法及系统
WO2019024060A1 (zh) * 2017-08-03 2019-02-07 华为技术有限公司 数据存储方法、装置和存储介质
CN109583651A (zh) * 2018-12-03 2019-04-05 焦点科技股份有限公司 一种保险电商平台用户流失预测的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2942804A1 (en) * 2015-09-30 2017-03-30 Wal-Mart Stores, Inc. Method and apparatus for using label data to assist in performing a retail store function
CN106375797A (zh) * 2016-09-27 2017-02-01 北京赢点科技有限公司 媒体节目和活动推荐系统及方法
CN107862602A (zh) * 2017-11-23 2018-03-30 安趣盈(上海)投资咨询有限公司 一种基于多维度指标计算、自学习及分群模型应用的授信决策方法与系统
CN108052657A (zh) * 2017-12-28 2018-05-18 税友软件集团股份有限公司 一种业务标签计算方法、系统、设备及计算机存储介质
CN108415978B (zh) * 2018-02-09 2021-04-09 北京腾云天下科技有限公司 用户标签存储方法、用户画像计算方法及计算设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019024060A1 (zh) * 2017-08-03 2019-02-07 华为技术有限公司 数据存储方法、装置和存储介质
CN108764663A (zh) * 2018-05-15 2018-11-06 广东电网有限责任公司信息中心 一种电力客户画像生成管理的方法及系统
CN109101652A (zh) * 2018-08-27 2018-12-28 宜人恒业科技发展(北京)有限公司 一种标签创建和管理系统
CN109189774A (zh) * 2018-09-14 2019-01-11 南威软件股份有限公司 一种基于脚本规则的用户标签转化方法及系统
CN109583651A (zh) * 2018-12-03 2019-04-05 焦点科技股份有限公司 一种保险电商平台用户流失预测的方法和装置

Also Published As

Publication number Publication date
CN111159204A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111159204B (zh) 一种通过配置的方式生成标签的方法及系统
US7840556B1 (en) Managing performance of a database query
US6718338B2 (en) Storing data mining clustering results in a relational database for querying and reporting
US6970882B2 (en) Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table
US8190556B2 (en) Intellegent data search engine
CN109902100A (zh) 报表查询方法、装置及存储介质
US20140012835A1 (en) Generating statistical views in a database system
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN104573022A (zh) 一种HBase的数据查询方法及装置
CN111125116B (zh) 定位业务表中代码字段及对应代码表的方法及系统
CN104881427A (zh) 一种面向电网调控运行的数据血统分析方法
CN102999637B (zh) 根据文件特征码为文件自动添加文件标签的方法及系统
CN110765750A (zh) 报表数据录入方法及终端设备
JP6375029B2 (ja) レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム
CN114969548A (zh) 一种产业图谱数据智能获取方法及系统
CN114253995B (zh) 数据溯源方法、装置、设备及计算机可读存储介质
CN109766353A (zh) 一种基于大数据多维属性动态生成标签的系统及工作方法
CN116719822B (zh) 一种海量结构化数据的存储方法及系统
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
CN115712684B (zh) 一种物联网中物品动态信息的存储方法及系统
US7899776B2 (en) Explaining changes in measures thru data mining
CN115774717A (zh) 数据搜索方法、装置、电子设备及计算机可读存储介质
CN116561181A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN109815297A (zh) 一种不依赖关系数据库的树状结构存取运算系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 "change of name, title or address"
CP03 "change of name, title or address"

Address after: 301, 3 / F, block F, Zhizao street, Zhongguancun, 45 Chengfu Road, Haidian District, Beijing 100062

Patentee after: Beijing Dongfang Jinxin Technology Co.,Ltd.

Address before: 9 / F, Jiahe Guoxin building, 15 Baiqiao street, Dongcheng District, Beijing 100062

Patentee before: Beijing Dongfang Jinxin Technology Co.,Ltd.