CN104111994A - 一种基于混合数据源的标签数据筛选方法及装置 - Google Patents

一种基于混合数据源的标签数据筛选方法及装置 Download PDF

Info

Publication number
CN104111994A
CN104111994A CN201410317595.3A CN201410317595A CN104111994A CN 104111994 A CN104111994 A CN 104111994A CN 201410317595 A CN201410317595 A CN 201410317595A CN 104111994 A CN104111994 A CN 104111994A
Authority
CN
China
Prior art keywords
label
list
information
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410317595.3A
Other languages
English (en)
Other versions
CN104111994B (zh
Inventor
白岩石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201410317595.3A priority Critical patent/CN104111994B/zh
Publication of CN104111994A publication Critical patent/CN104111994A/zh
Application granted granted Critical
Publication of CN104111994B publication Critical patent/CN104111994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于混合数据源的标签数据筛选方法及装置,包括以下步骤:根据各类用户的所有属性数据信息分别建立多个标签表,根据标签表的名称建立第一配置表;根据每个标签表中的各个属性数据信息和与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;获取用户输入的标签配置信息,根据标签配置信息选择若干个标签表的名称,根据标签表的名称与标签表之间的关联关系建立混合数据源标签表;创建阈值定义文件;根据阈值定义文件,通过执行混合数据源标签表获取多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。本发明采用虚拟化混合数据源,减少冗余字段的使用和刷新,同时能够减少存储冗余。

Description

一种基于混合数据源的标签数据筛选方法及装置
技术领域
本发明涉及一种基于混合数据源的标签数据筛选方法及装置。
背景技术
目前标签应用使用采用单一画像表结构,以“大宽表”的方式进行用户分群、标记、提取用户数据,从分类精度与属性维度支持上都存在限制与瓶颈。标签结果以实体表形式存在,存储方式上分为(1)多标签标记存在于一张物理表中;(2)一个标签标记一张物理表两种方式。第一种方式对标签的个数有限制,支持度有较大局限性,第二种方式在存储上占用较大空间。
目前标签应用采用的“大宽表”方式存储数据源,标签结果多采用单标签分物理模型存储和多标签单物理模型存储方式,均存在问题。
(1).“大宽表”数据源对于数据源的全面性有较大制约,特别是在增值业务的分析支持与营销数据支持上,成为致命硬伤。在当下精细化营销需求日益增加,对分群结果的准确性要求也越来越高,全面的数据源支持显的更为重要,“大宽表”字段个数的限制(字段越多,效率越低),新增和更新字段更是“伤一发,动全身”,不仅制约了数据源的全面性,频繁修改代码所带来的风险更是非常严重。
(2).多标签单模型存储在实现上较为简单,但实际使用中存在对标签条数的限制,当修改一个标签时,需要更新整体标签表,导致全标签库无法使用等问题。
(3).单标签分表存储模型可解决标签库更新时不影响标签库使用的问题,但在复合标签使用方面存在瓶颈,同时大量不必要的存储占用,使得其在优势上大打折扣。
发明内容
本发明所要解决的技术问题是提供一种采用虚拟化混合数据源、减少冗余字段的使用和刷新、减少存储冗余的基于混合数据源的标签数据筛选方法及装置。
本发明解决上述技术问题的技术方案如下:一种基于混合数据源的标签数据筛选方法,包括以下步骤:
步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
步骤2:根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
步骤3:获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
步骤4:创建用于设定所有属性数据信息的阈值的阈值定义文件;
步骤5:根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
本发明的有益效果是:本发明大大提高系统(应用)的生命周期,减少投入成本,提高系统效率与资源利用,符合中移动信息化建设要求;降低了系统(应用)升级上线的代码级安全风险,创新采用软件热机上线模式完成分析模型的更替,符合中移动安全风险管控要求;整体方案采用混合数据源,配置管理方式,满足业务扩展的无限延展性;整体方案创新采用软件热机上线模式,提高需求上线响应速度,并具备高扩展性,符合相关要求。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
进一步,所述步骤3中的标签配置信息具体为,包含所有待筛选的属性数据信息。
进一步,一种基于混合数据源的标签数据筛选装置,包括第一建立模块,第二建立模块,混合数据源模块,创建阈值文件模块和筛选模块;
所述第一建立模块,用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
所述第二建立模块,用于根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
所述混合数据源模块,用于获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
所述创建阈值文件模块,用于创建用于设定所有属性数据信息的阈值的阈值定义文件;
所述筛选模块,用于根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
进一步,所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
进一步,所述混合数据源模块获取的标签配置信息具体为,包含所有待筛选的属性数据信息。
附图说明
图1为本发明方法步骤流程图;
图2为本发明装置结构图。
附图中,各标号所代表的部件列表如下:
1、第一建立模块,2、第二建立模块,3、混合数据源模块,4、创建阈值文件模块,5、筛选模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图;图2为本发明装置结构图。
实施例1
一种基于混合数据源的标签数据筛选方法,包括以下步骤:
步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
步骤2:根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
步骤3:获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
步骤4:创建用于设定所有属性数据信息的阈值的阈值定义文件;
步骤5:根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
所述步骤3中的标签配置信息具体为,包含所有待筛选的属性数据信息。
一种基于混合数据源的标签数据筛选装置,包括第一建立模块1,第二建立模块2,混合数据源模块3,创建阈值文件模块4和筛选模块5;
所述第一建立模块1,用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
所述第二建立模块2,用于根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
所述混合数据源模块3,用于获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
所述创建阈值文件模块4,用于创建用于设定所有属性数据信息的阈值的阈值定义文件;
所述筛选模块5,用于根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
所述混合数据源模块3获取的标签配置信息具体为,包含所有待筛选的属性数据信息。
混合标签数据源:通过将各类用户属性数据进行分组分类(以用户基本属性、业务属性、行为属性等),生成不同的画像模型,如:用户基本信息表、飞信业务画像表等。通过用户ID等唯一标识进行关联,以配置关系实现应用展示,从而解决了“大宽表”字段限制与效率问题,最大化减少冗余字段的使用和刷新,同时在应用的功能扩展方面,新生成画像或更新旧的画像表,只需要增加或修改对应的配置表信息,即可完成上线工作,而不需要进行停机作业。
虚拟化标签存储:标签分群信息以配置形式存在,只有在首次使用时(或定时)生成一次,且使用生成,不使用,不生成,减少存储冗余的同时,也为融合标签应用提供了基础。在标签修改过程中,不会对以有标签产生影响。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于混合数据源的标签数据筛选方法,其特征在于,包括以下步骤:
步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
步骤2:根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
步骤3:获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
步骤4:创建用于设定所有属性数据信息的阈值的阈值定义文件;
步骤5:根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
2.根据权利要求1所述的标签数据筛选方法,其特征在于:所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
3.根据权利要求1所述的标签数据筛选方法,其特征在于:所述步骤3中的标签配置信息具体为,包含所有待筛选的属性数据信息。
4.一种基于混合数据源的标签数据筛选装置,其特征在于:包括第一建立模块(1),第二建立模块(2),混合数据源模块(3),创建阈值文件模块(4)和筛选模块(5);
所述第一建立模块(1),用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表,将第一配置表发送给第二建立模块(2);
所述第二建立模块(2),用于根据每个标签表中的各个属性数据信息和接收的第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表,将第二配置表发送给混合数据源模块(3);
所述混合数据源模块(3),用于获取用户输入的标签配置信息,根据标签配置信息在接收的第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表,将混合数据源标签表发送给筛选模块(5);
所述创建阈值文件模块(4),用于创建用于设定所有属性数据信息的阈值的阈值定义文件;
所述筛选模块(5),用于根据阈值定义文件,通过执行接收的混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
5.根据权利要求4所述的标签数据筛选装置,其特征在于:所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
6.根据权利要求4所述的标签数据筛选装置,其特征在于:所述混合数据源模块(3)获取的标签配置信息具体为,包含所有待筛选的属性数据信息。
CN201410317595.3A 2014-07-04 2014-07-04 一种基于混合数据源的标签数据筛选方法及装置 Active CN104111994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410317595.3A CN104111994B (zh) 2014-07-04 2014-07-04 一种基于混合数据源的标签数据筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410317595.3A CN104111994B (zh) 2014-07-04 2014-07-04 一种基于混合数据源的标签数据筛选方法及装置

Publications (2)

Publication Number Publication Date
CN104111994A true CN104111994A (zh) 2014-10-22
CN104111994B CN104111994B (zh) 2017-08-01

Family

ID=51708785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410317595.3A Active CN104111994B (zh) 2014-07-04 2014-07-04 一种基于混合数据源的标签数据筛选方法及装置

Country Status (1)

Country Link
CN (1) CN104111994B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874266A (zh) * 2015-12-10 2017-06-20 中国电信股份有限公司 用户画像方法和用于用户画像的装置
CN107341206A (zh) * 2017-06-23 2017-11-10 南京甄视智能科技有限公司 基于多个数据源构建精准的用户画像系统及方法
CN108268517A (zh) * 2016-12-30 2018-07-10 希姆通信息技术(上海)有限公司 数据库中标签的管理方法及系统
CN108628866A (zh) * 2017-03-20 2018-10-09 大有秦鼎(北京)科技有限公司 数据融合的方法和装置
CN109191158A (zh) * 2018-06-28 2019-01-11 深圳市彬讯科技有限公司 用户画像标签数据的处理方法及处理设备
CN110162518A (zh) * 2019-04-16 2019-08-23 平安科技(深圳)有限公司 数据分组方法、装置、电子设备及存储介质
CN110866054A (zh) * 2019-10-17 2020-03-06 苏宁云计算有限公司 一种标签配置方法、装置及计算机存储介质
CN112182309A (zh) * 2020-10-06 2021-01-05 广州云莫凡信息科技有限公司 基于建筑工程和大数据的建筑装饰基层工业化数据处理方法与系统
CN112289454A (zh) * 2020-09-10 2021-01-29 上海柯林布瑞信息技术有限公司 临床数据的打标签方法及装置、存储介质、终端

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590619A (zh) * 2021-07-22 2021-11-02 中共四川省委组织部 一种基于标签的信息保护和数据管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093618A (zh) * 2007-07-06 2007-12-26 穆陟暄 一种完全智能化的微格教学系统
CN101710322A (zh) * 2009-10-28 2010-05-19 金蝶软件(中国)有限公司 一种信息关联的方法和系统
US20100138442A1 (en) * 2008-11-28 2010-06-03 International Business Machines Corporation Database access using partitioned data areas
CN103176997A (zh) * 2011-12-21 2013-06-26 上海博路信息技术有限公司 一种多维信息发布和接收系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093618A (zh) * 2007-07-06 2007-12-26 穆陟暄 一种完全智能化的微格教学系统
US20100138442A1 (en) * 2008-11-28 2010-06-03 International Business Machines Corporation Database access using partitioned data areas
CN101710322A (zh) * 2009-10-28 2010-05-19 金蝶软件(中国)有限公司 一种信息关联的方法和系统
CN103176997A (zh) * 2011-12-21 2013-06-26 上海博路信息技术有限公司 一种多维信息发布和接收系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874266A (zh) * 2015-12-10 2017-06-20 中国电信股份有限公司 用户画像方法和用于用户画像的装置
CN108268517A (zh) * 2016-12-30 2018-07-10 希姆通信息技术(上海)有限公司 数据库中标签的管理方法及系统
CN108628866A (zh) * 2017-03-20 2018-10-09 大有秦鼎(北京)科技有限公司 数据融合的方法和装置
CN108628866B (zh) * 2017-03-20 2020-11-06 大有秦鼎(北京)科技有限公司 数据融合的方法和装置
CN107341206A (zh) * 2017-06-23 2017-11-10 南京甄视智能科技有限公司 基于多个数据源构建精准的用户画像系统及方法
CN107341206B (zh) * 2017-06-23 2019-11-29 南京甄视智能科技有限公司 基于多个数据源构建精准的用户画像系统的方法
CN109191158A (zh) * 2018-06-28 2019-01-11 深圳市彬讯科技有限公司 用户画像标签数据的处理方法及处理设备
CN110162518A (zh) * 2019-04-16 2019-08-23 平安科技(深圳)有限公司 数据分组方法、装置、电子设备及存储介质
CN110162518B (zh) * 2019-04-16 2023-10-31 平安科技(深圳)有限公司 数据分组方法、装置、电子设备及存储介质
CN110866054A (zh) * 2019-10-17 2020-03-06 苏宁云计算有限公司 一种标签配置方法、装置及计算机存储介质
CN112289454A (zh) * 2020-09-10 2021-01-29 上海柯林布瑞信息技术有限公司 临床数据的打标签方法及装置、存储介质、终端
CN112182309A (zh) * 2020-10-06 2021-01-05 广州云莫凡信息科技有限公司 基于建筑工程和大数据的建筑装饰基层工业化数据处理方法与系统

Also Published As

Publication number Publication date
CN104111994B (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN104111994A (zh) 一种基于混合数据源的标签数据筛选方法及装置
CN104881466B (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN102455930A (zh) 一种应用程序分类安装的方法
CN104598376A (zh) 一种数据驱动的分层自动化测试系统和方法
CN103744906A (zh) 一种数据同步系统、方法及装置
CN102567399B (zh) 一种访问数据库的方法和装置
CN102541529A (zh) 一种查询页面生成装置和方法
CN103049515A (zh) 一种应用程序分类的方法、装置和设备
CN103927338A (zh) 日志信息入库处理方法和装置
CN103051652B (zh) 一种移动终端云计算发布平台
CN104572597A (zh) 一种自动生成word分析报告方法和装置
CN106156047B (zh) 一种快照信息处理方法及装置
CN104699723A (zh) 数据交换适配器、异构系统之间数据同步系统和方法
CN105653255B (zh) 一种在office框架中设置报告模板以自动生成报告文件的方法
CN105528418A (zh) 一种设计文档生成方法及装置
CN109271449A (zh) 一种基于文件的分布式存储查询系统及查询方法
CN102984737B (zh) 一种无线网络的参数统一配置方法及装置
CN105389367A (zh) 基于Mongo数据库的电网图形多时态多级分布式存储方法
CN106503274A (zh) 一种数据整合与搜索方法及服务器
CN103051671A (zh) 一种集群文件系统重复数据删除方法
CN103902562A (zh) 一种终端数据库升级方法及相关装置
CN110471754A (zh) 作业调度中的数据展示方法、装置、设备及存储介质
CN104679793A (zh) 一种基于动态发票模板的发票开具系统
CN101046746B (zh) 分布式软件开发环境中的代码管理
CN110532058B (zh) 容器集群服务的管理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant