CN104111994B - 一种基于混合数据源的标签数据筛选方法及装置 - Google Patents
一种基于混合数据源的标签数据筛选方法及装置 Download PDFInfo
- Publication number
- CN104111994B CN104111994B CN201410317595.3A CN201410317595A CN104111994B CN 104111994 B CN104111994 B CN 104111994B CN 201410317595 A CN201410317595 A CN 201410317595A CN 104111994 B CN104111994 B CN 104111994B
- Authority
- CN
- China
- Prior art keywords
- label
- list
- data
- module
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于混合数据源的标签数据筛选方法及装置,包括以下步骤:根据各类用户的所有属性数据信息分别建立多个标签表,根据标签表的名称建立第一配置表;根据每个标签表中的各个属性数据信息和与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;获取用户输入的标签配置信息,根据标签配置信息选择若干个标签表的名称,根据标签表的名称与标签表之间的关联关系建立混合数据源标签表;创建阈值定义文件;根据阈值定义文件,通过执行混合数据源标签表获取多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。本发明采用虚拟化混合数据源,减少冗余字段的使用和刷新,同时能够减少存储冗余。
Description
技术领域
本发明涉及一种基于混合数据源的标签数据筛选方法及装置。
背景技术
目前标签应用使用采用单一画像表结构,以“大宽表”的方式进行用户分群、标记、提取用户数据,从分类精度与属性维度支持上都存在限制与瓶颈。标签结果以实体表形式存在,存储方式上分为(1)多标签标记存在于一张物理表中;(2)一个标签标记一张物理表两种方式。第一种方式对标签的个数有限制,支持度有较大局限性,第二种方式在存储上占用较大空间。
目前标签应用采用的“大宽表”方式存储数据源,标签结果多采用单标签分物理模型存储和多标签单物理模型存储方式,均存在问题。
(1).“大宽表”数据源对于数据源的全面性有较大制约,特别是在增值业务的分析支持与营销数据支持上,成为致命硬伤。在当下精细化营销需求日益增加,对分群结果的准确性要求也越来越高,全面的数据源支持显的更为重要,“大宽表”字段个数的限制(字段越多,效率越低),新增和更新字段更是“伤一发,动全身”,不仅制约了数据源的全面性,频繁修改代码所带来的风险更是非常严重。
(2).多标签单模型存储在实现上较为简单,但实际使用中存在对标签条数的限制,当修改一个标签时,需要更新整体标签表,导致全标签库无法使用等问题。
(3).单标签分表存储模型可解决标签库更新时不影响标签库使用的问题,但在复合标签使用方面存在瓶颈,同时大量不必要的存储占用,使得其在优势上大打折扣。
发明内容
本发明所要解决的技术问题是提供一种采用虚拟化混合数据源、减少冗余字段的使用和刷新、减少存储冗余的基于混合数据源的标签数据筛选方法及装置。
本发明解决上述技术问题的技术方案如下:一种基于混合数据源的标签数据筛选方法,包括以下步骤:
步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
步骤2:根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
步骤3:获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
步骤4:创建用于设定所有属性数据信息的阈值的阈值定义文件;
步骤5:根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
本发明的有益效果是:本发明大大提高系统(应用)的生命周期,减少投入成本,提高系统效率与资源利用,符合中移动信息化建设要求;降低了系统(应用)升级上线的代码级安全风险,创新采用软件热机上线模式完成分析模型的更替,符合中移动安全风险管控要求;整体方案采用混合数据源,配置管理方式,满足业务扩展的无限延展性;整体方案创新采用软件热机上线模式,提高需求上线响应速度,并具备高扩展性,符合相关要求。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
进一步,所述步骤3中的标签配置信息具体为,包含所有待筛选的属性数据信息。
进一步,一种基于混合数据源的标签数据筛选装置,包括第一建立模块,第二建立模块,混合数据源模块,创建阈值文件模块和筛选模块;
所述第一建立模块,用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
所述第二建立模块,用于根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
所述混合数据源模块,用于获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
所述创建阈值文件模块,用于创建用于设定所有属性数据信息的阈值的阈值定义文件;
所述筛选模块,用于根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
进一步,所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
进一步,所述混合数据源模块获取的标签配置信息具体为,包含所有待筛选的属性数据信息。
附图说明
图1为本发明方法步骤流程图;
图2为本发明装置结构图。
附图中,各标号所代表的部件列表如下:
1、第一建立模块,2、第二建立模块,3、混合数据源模块,4、创建阈值文件模块,5、筛选模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图;图2为本发明装置结构图。
实施例1
一种基于混合数据源的标签数据筛选方法,包括以下步骤:
步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
步骤2:根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
步骤3:获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
步骤4:创建用于设定所有属性数据信息的阈值的阈值定义文件;
步骤5:根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
所述步骤3中的标签配置信息具体为,包含所有待筛选的属性数据信息。
一种基于混合数据源的标签数据筛选装置,包括第一建立模块1,第二建立模块2,混合数据源模块3,创建阈值文件模块4和筛选模块5;
所述第一建立模块1,用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
所述第二建立模块2,用于根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
所述混合数据源模块3,用于获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
所述创建阈值文件模块4,用于创建用于设定所有属性数据信息的阈值的阈值定义文件;
所述筛选模块5,用于根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
所述混合数据源模块3获取的标签配置信息具体为,包含所有待筛选的属性数据信息。
混合标签数据源:通过将各类用户属性数据进行分组分类(以用户基本属性、业务属性、行为属性等),生成不同的画像模型,如:用户基本信息表、飞信业务画像表等。通过用户ID等唯一标识进行关联,以配置关系实现应用展示,从而解决了“大宽表”字段限制与效率问题,最大化减少冗余字段的使用和刷新,同时在应用的功能扩展方面,新生成画像或更新旧的画像表,只需要增加或修改对应的配置表信息,即可完成上线工作,而不需要进行停机作业。
虚拟化标签存储:标签分群信息以配置形式存在,只有在首次使用时(或定时)生成一次,且使用生成,不使用,不生成,减少存储冗余的同时,也为融合标签应用提供了基础。在标签修改过程中,不会对以有标签产生影响。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于混合数据源的标签数据筛选方法,其特征在于,包括以下步骤:
步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表;
步骤2:根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表;
步骤3:获取用户输入的标签配置信息,根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表;
步骤4:创建用于设定所有属性数据信息的阈值的阈值定义文件;
步骤5:根据阈值定义文件,通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
2.根据权利要求1所述的标签数据筛选方法,其特征在于:所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
3.根据权利要求1所述的标签数据筛选方法,其特征在于:所述步骤3中的标签配置信息具体为,包含所有待筛选的属性数据信息。
4.一种基于混合数据源的标签数据筛选装置,其特征在于:包括第一建立模块(1),第二建立模块(2),混合数据源模块(3),创建阈值文件模块(4)和筛选模块(5);
所述第一建立模块(1),用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表,每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上,根据每个标签表的名称建立第一配置表,将第一配置表发送给第二建立模块(2);
所述第二建立模块(2),用于根据每个标签表中的各个属性数据信息和接收的第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系,建立第二配置表,将第二配置表发送给混合数据源模块(3);
所述混合数据源模块(3),用于获取用户输入的标签配置信息,根据标签配置信息在接收的第二配置表中选择满足标签配置信息的若干个标签表的名称,根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表,将混合数据源标签表发送给筛选模块(5);
所述创建阈值文件模块(4),用于创建用于设定所有属性数据信息的阈值的阈值定义文件;
所述筛选模块(5),用于根据阈值定义文件,通过执行接收的混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息,生成数据筛选结果,将数据筛选结果进行输出并存储。
5.根据权利要求4所述的标签数据筛选装置,其特征在于:所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
6.根据权利要求4所述的标签数据筛选装置,其特征在于:所述混合数据源模块(3)获取的标签配置信息具体为,包含所有待筛选的属性数据信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410317595.3A CN104111994B (zh) | 2014-07-04 | 2014-07-04 | 一种基于混合数据源的标签数据筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410317595.3A CN104111994B (zh) | 2014-07-04 | 2014-07-04 | 一种基于混合数据源的标签数据筛选方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104111994A CN104111994A (zh) | 2014-10-22 |
CN104111994B true CN104111994B (zh) | 2017-08-01 |
Family
ID=51708785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410317595.3A Active CN104111994B (zh) | 2014-07-04 | 2014-07-04 | 一种基于混合数据源的标签数据筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104111994B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590619A (zh) * | 2021-07-22 | 2021-11-02 | 中共四川省委组织部 | 一种基于标签的信息保护和数据管理方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874266A (zh) * | 2015-12-10 | 2017-06-20 | 中国电信股份有限公司 | 用户画像方法和用于用户画像的装置 |
CN108268517B (zh) * | 2016-12-30 | 2021-11-26 | 希姆通信息技术(上海)有限公司 | 数据库中标签的管理方法及系统 |
CN108628866B (zh) * | 2017-03-20 | 2020-11-06 | 大有秦鼎(北京)科技有限公司 | 数据融合的方法和装置 |
CN107341206B (zh) * | 2017-06-23 | 2019-11-29 | 南京甄视智能科技有限公司 | 基于多个数据源构建精准的用户画像系统的方法 |
CN109191158B (zh) * | 2018-06-28 | 2022-06-10 | 土巴兔集团股份有限公司 | 用户画像标签数据的处理方法及处理设备 |
CN110162518B (zh) * | 2019-04-16 | 2023-10-31 | 平安科技(深圳)有限公司 | 数据分组方法、装置、电子设备及存储介质 |
CN110866054A (zh) * | 2019-10-17 | 2020-03-06 | 苏宁云计算有限公司 | 一种标签配置方法、装置及计算机存储介质 |
CN112289454B (zh) * | 2020-09-10 | 2022-06-17 | 上海柯林布瑞信息技术有限公司 | 临床数据的打标签方法及装置、存储介质、终端 |
CN112182309B (zh) * | 2020-10-06 | 2021-11-19 | 甄义伟 | 基于建筑工程和大数据的建筑装饰基层工业化数据处理方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093618A (zh) * | 2007-07-06 | 2007-12-26 | 穆陟暄 | 一种完全智能化的微格教学系统 |
CN101710322A (zh) * | 2009-10-28 | 2010-05-19 | 金蝶软件(中国)有限公司 | 一种信息关联的方法和系统 |
CN103176997A (zh) * | 2011-12-21 | 2013-06-26 | 上海博路信息技术有限公司 | 一种多维信息发布和接收系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4688111B2 (ja) * | 2008-11-28 | 2011-05-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、データベース・システム、情報処理方法、およびプログラム |
-
2014
- 2014-07-04 CN CN201410317595.3A patent/CN104111994B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093618A (zh) * | 2007-07-06 | 2007-12-26 | 穆陟暄 | 一种完全智能化的微格教学系统 |
CN101710322A (zh) * | 2009-10-28 | 2010-05-19 | 金蝶软件(中国)有限公司 | 一种信息关联的方法和系统 |
CN103176997A (zh) * | 2011-12-21 | 2013-06-26 | 上海博路信息技术有限公司 | 一种多维信息发布和接收系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590619A (zh) * | 2021-07-22 | 2021-11-02 | 中共四川省委组织部 | 一种基于标签的信息保护和数据管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104111994A (zh) | 2014-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104111994B (zh) | 一种基于混合数据源的标签数据筛选方法及装置 | |
CN110058856A (zh) | 页面配置方法及装置 | |
CN111242691A (zh) | 广告海报的生成方法、装置、存储介质及终端设备 | |
CN103324763B (zh) | 一种手机端树形数据结构的展现方法 | |
CN104866498A (zh) | 一种信息处理方法及装置 | |
CN103701934A (zh) | 一种资源优化调度方法及虚拟机宿主机优化选择方法 | |
CN110389832A (zh) | ZooKeeper容器集群部署方法、系统、设备及存储介质 | |
CN106156315B (zh) | 一种基于分类模型判断的数据质量监控方法 | |
CN106570093A (zh) | 一种基于独立元数据组织结构的海量数据迁移方法和装置 | |
CN106033388A (zh) | 测试用例库管理方法及系统 | |
CN102571400A (zh) | 一种通信网络资源模型的更新方法、系统及装置 | |
CN110389766A (zh) | HBase容器集群部署方法、系统、设备及计算机可读存储介质 | |
CN104657164B (zh) | 软件升级处理方法和装置 | |
CN102857949A (zh) | 一种规划数据一致性保证的方法和装置 | |
CN103294799B (zh) | 一种数据并行批量导入只读查询系统的方法及系统 | |
CN103440197B (zh) | 一种基于对比测试自动生成差异测试报告的方法 | |
CN102025548B (zh) | 一种用户自定义的性能指标多版本平滑升级的方法及装置 | |
CN107193549A (zh) | 基于元数据的网页快速开发方法 | |
CN109491884A (zh) | 代码性能检测方法、装置、计算机设备和介质 | |
CN108053873A (zh) | 一种基于全院通用业务的公共控件节点树的设计方法 | |
CN105447605A (zh) | 一种面向aps生产模型的动态建模方法 | |
CN102722543B (zh) | 一种用于文件储存的方法 | |
CN108052493A (zh) | 一种阅办单结合手写签批的设计系统及方法 | |
CN102467376A (zh) | 一种文字信息的修改方法及装置 | |
CN106445395A (zh) | 信息的显示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |