CN108984588A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN108984588A CN108984588A CN201810525255.8A CN201810525255A CN108984588A CN 108984588 A CN108984588 A CN 108984588A CN 201810525255 A CN201810525255 A CN 201810525255A CN 108984588 A CN108984588 A CN 108984588A
- Authority
- CN
- China
- Prior art keywords
- value
- added service
- grouping
- user
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了一种数据处理方法,包括:获取各用户的增值业务记录并进行脱敏处理;从所述脱敏处理后的增值业务记录中提取信息,形成用于聚类处理的特征数据集;利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组;根据各用户分组下特征数据集,确定用户分组的分组特征;至少将所述用户分组的用户标识及其分组特征提供给增值业务系统。通过脱敏处理、k–Means聚类实现基于增值业务的用户分群/分组,能够在保护用户隐私的前提下基于各用户的增值业务记录对用户进行分群;将用户分组的用户标识及其分组特征提供给增值业务系统,便于增值业务系统通过分组特征和用户标识有针对性的为相应用户提供增值服务。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着移动网络和互联网的广泛应用,各类增值业务层出不穷。对于用户网络行为数据的分析大多集中于用户上网行为的分析、上网套餐、流量等信息的挖掘。而对于用户分群来说,大多是基于用户流量、网页类别的用户分群,对于增值业务相关的用户分群,目前尚未提出有效的解决方案。
发明内容
本申请旨在至少解决上述技术问题之一。
本申请提供一种基于增值业务的数据处理方法及装置,能够在去隐私化的基础上基于不同增值业务对用户进行分群,以便有针对性的提供增值服务。
基于上述目的,在本申请的一个方面,提出了
一种数据处理方法,其特征在于,包括:
获取各用户的增值业务记录并进行脱敏处理;
从所述脱敏处理后的增值业务记录中提取信息,形成用于聚类处理的特征数据集,所述特征数据集至少包括用户标识、增值业务使用频率、增值业务使用时长、增值业务使用类型数;
利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组;
根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征;
至少将所述用户分组的用户标识及其分组特征提供给增值业务系统。
优选地,所述方法还包括:分别对所述特征数据集中的增值业务使用频率、增值业务使用时长、增值业务使用类型数进行标准化处理;
所述利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组,包括:将所述标准化处理后的特征数据集输入预先构建的K-Means模型,初始化所述K-Means模型的迭代参数,并设置所述K-Means模型的簇数为预设的用户分组总数;运行所述K-Means模型以对所述特征数据集执行聚类处理,最终得到所述用户分组的结果并输出。
优选地,所述根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征,包括:
分别计算各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,根据所述增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值大小确定各用户分组的分组特征。
优选地,所述方法还包括:提取各用户分组下的用户标识,分别形成相应的分组数据集,并按照相应用户分组的分组特征对所述分组数据集进行标记;
所述至少将所述用户分组的用户标识及其分组特征提供给增值业务系统,包括:将各用户分组的所述分组数据集发送给增值业务系统。
优选地,所述脱敏处理,包括:
识别每条增值业务记录中的敏感信息;
从预先配置的脱敏规则表中查询对应所述敏感信息的脱敏规则,并按照所述脱敏规则对所述敏感信息执行脱敏操作。
一种数据处理装置,其特征在于,包括:获取模块、脱敏模块、特征提取模块、聚类模块、确定模块以及提供模块;其中,
获取模块,用于获取各用户的增值业务记录;
脱敏模块,用于对所述增值业务记录进行脱敏处理并输出到特征提取模块;
特征提取模块,用于从所述脱敏处理后的增值业务记录中提取信息,形成用于聚类处理的特征数据集,所述特征数据集至少包括用户标识、增值业务使用频率、增值业务使用时长、增值业务使用类型数;
聚类模块,用于利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组;
确定模块,用于根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征;
提供模块,用于至少将所述用户分组的用户标识及其分组特征提供给增值业务系统。
优选地,还包括:标准化模块,用于分别对来自所述特征提取模块的所述特征数据集的增值业务使用频率、增值业务使用时长、增值业务使用类型数进行标准化处理,并将所述标准化处理后的特征数据集输入预先构建的K-Means模型;
所述聚类模块,具体用于预先构建的K-Means模型;以及,用于初始化所述K-Means模型的迭代参数,设置所述K-Means模型的簇数为预设的用户分组总数,运行所述K-Means模型以对所述特征数据集执行聚类处理,最终得到所述用户分组的结果并输出。
优选地,还包括:生成模块,用于提取各用户分组下的用户标识,分别形成相应的分组数据集,并按照相应用户分组的分组特征对所述分组数据集进行标记;
所述提供模块,具体用于将各用户分组的所述分组数据集发送给增值业务系统。
一种数据处理装置,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如上述所述的数据处理方法。
一种计算机可读介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的数据处理方法。
本申请的技术效果至少可包括:
一方面,通过脱敏处理、k–Means聚类实现基于增值业务的用户分群/分组,能够在保护用户隐私的前提下基于各用户的增值业务记录对用户进行分群;
另一方面,将用户分组的用户标识及其分组特征提供给增值业务系统,便于增值业务系统通过分组特征和用户标识有针对性的为相应用户提供增值服务。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为实施例一数据处理方法的流程示意图;
图2为实施例一数据处理方法的示例性执行流程示意图;
图3为实施例二数据处理装置的示例性结构示意图;
图4为本发明实施例的示例性应用场景结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本文中,增值业务是指需要付费才能享受的服务,该增值业务可以为移动增值业务、互联网增值业务等。比如,增值业务可以包括但不限于:语音增值业务、移动消息类业务、移动资讯类业务、移动音乐类业务、移动视频类业务、移动游戏类业务、移动定位业务、移动办公类业务、移动行业应用、移动互联网应用、增值云备份服务等。再比如,增值业务可以包括但不限于互联网的会员服务、社区服务、游戏服务、直播服务等。
本申请可通过任何支持相应功能的计算设备来实现。例如,该计算设备可以为计算机、物理服务器或其集群、虚拟服务器或其集群、分布式系统等。
下面对本申请的具体实现方式进行详细说明。
实施例一
一种增值业务的数据处理方法,如图1所示,可包括:
步骤101,获取各用户的增值业务记录并进行脱敏处理;
步骤102,从所述脱敏处理后的增值业务记录中提取信息,形成用于聚类处理的特征数据集,所述特征数据集至少包括用户标识、增值业务使用频率、增值业务使用时长、增值业务使用类型数;
步骤103,利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组;
步骤104,根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征;
步骤105,至少将所述用户分组的用户标识及其分组特征提供给增值业务系统。
本实施例中,通过脱敏处理、k–Means聚类实现基于增值业务的用户分群/分组,并将相应分组/分群的信息提供给增值业务系统,能够在保护用户隐私的前提下基于增值业务的使用情况对用户进行分群,便于增值业务系统有针对性的提供增值服务。
本实施例中,获取增值业务记录的方式可以多种。针对不同的增值业务可采用不同的获取方式。比如,对于互联网增值业务来说,可以通过实时或定期抓取相应网页或应用程序的浏览日志或使用日志来作为所述增值业务记录。再比如,对于移动增值业务,相应的增值业务记录可以由移动增值业务提供商的服务器实时收集并存储在其专用数据库(例如,存储集群中),可以通过私有协议和/或加密传输的方式从该专用数据库或相应服务器实时或定期获取相应的增值业务记录。
需要说明的是,本文所述增值业务记录可以包括用户特征信息、增值业务使用行为信息、增值业务属性信息。其中,用户特征信息是可反映用户特征的信息,可以包括如下之一或多项:用于唯一标识一个用户的用户标识(比如,电话号码、身份证号码、姓名、用户ID等)、用户属性(比如,职业、生日、地域等)、用户定位信息(比如,家庭住址、工作地址等)、用户所使用设备的信息(比如,设备号、设备类型等)。增值业务使用行为信息是指因用户使用增值业务的行为而产生的信息,可以包括如下之一或多项:每次使用增值业务的开始时刻、结束时刻、时长等时间信息、每次使用增值业务产生的流量、用户购买增值业务的信息(比如,支付账号、交费金额等)、每次使用增值业务的类型。增值业务属性信息可以包括:增值业务的标识(比如,名称、编号、ID等)、类型、资费规则等。实际应用中,增值业务种类不同,其对应的增值业务记录内容则不同,对于增值业务记录的具体内容,本文不予限制。
本实施例中,步骤101中脱敏处理的方式可以多种。一种实现方式,该脱敏处理的过程可以包括:识别每条增值业务记录中的敏感信息;从脱敏规则表中查询对应所述敏感信息的脱敏规则,并按照所述脱敏规则对所述敏感信息执行脱敏操作。另一种实现方式中,可以利用K-Anonymity、L-Diversity、T-Closeness或其他数据脱敏算法预先构建脱敏模型,将增值业务记录输入该脱敏模型,脱敏模型执行脱敏处理后即输出脱敏后的增值业务记录。除此之外,还可采用其他方式,对于脱敏处理的具体实现方式,本文不予限制。
这里,脱敏规则表可以包括一条或多条记录,每条记录包含一条敏感信息的标识(比如,敏感信息的字段名)及其脱敏规则的标识,每条敏感信息的脱敏规则可以有一个或多个(多个时脱敏处理时随机选择一个脱敏规则)。这里,脱敏规则是指敏感信息中数据变形处理的方式,脱敏规则与脱敏操作一一对应,脱敏操作可以包括如下之一或多项:隐藏、置换、哈希、转换、重排、加密、截断、掩码、日期偏移取整、替换。
如下表1为脱敏规则表的示例。
敏感信息字段名 | 脱敏规则 |
身份证 | 隐藏 |
电话号码 | 置换、掩码、截断、转换 |
设备号 | 加密 |
邮件地址 | 截断 |
家庭地址 | 隐藏 |
支付账号 | 隐藏 |
姓名 | 隐藏 |
生日 | 日期偏移取整 |
职业 | 哈希映射 |
表1
如下表2为脱敏规则与脱敏操作的示例。
表2
实际应用中,脱敏规则表可以预先配置,可以采用静态的配置方式,也可以采用动态配置方式。其中,静态的配置方式可以是,管理员根据增值业务的特点、应用场景的需求等情况人为设定脱敏规则表的内容(比如,在相应的用户界面下输入脱敏规则表中的敏感信息并选择其脱敏规则)并将该脱敏规则表配置到执行本实施例所述数据处理方法的计算设备中。动态的配置方式可以是,自动检测并提取增值业务记录中敏感信息的字段名,根据所述敏感信息的脱敏程度(比如,数据变形处理是否可逆)选取相应的脱敏规则,并生成和/或更新脱敏规则表。例如,对于“身份证”、“家庭住址”、“支付账号”,可以选取数据变形处理不可逆的脱敏规则,而对于“电话号码”则可以选取数据变形处理可逆的脱敏规则,便于相应信息在需要时能够被还原。这里,在需要处理新的增值业务记录时,可以更新脱敏规则表,脱敏规则表的更新方式与其配置方式类似,不再赘述。
本实施例中,在步骤102之前,还可以执行如下处理:对增值业务记录进行预处理以排查缺失值和异常值,按照预先设定的清洗条件对增值业务记录进行数据清洗,满足清洗条件的增值业务记录舍弃,不满足清洗条件的增值业务记录保留。如此,可在数据处理之前预先将部分不可用或对数据处理无意义的增值业务记录清除,不仅可提高后续聚类处理的精确度,而且可以提高数据处理的效率。这里,清洗条件可以包括但不限于:1)确认为重复数据的增值业务记录,所述重复数据是指同一时间同一用户使用同一增值业务的记录;2)具有缺失值的增值业务记录;3)包含异常值的增值业务记录;4)信息无效的增值业务记录。需要说明的是,上述清洗条件仅为示例。实际应用中,还可增加与具体应用场景需求和/或与增值业务自身特点相关的清洗条件。对于清洗条件的具体配置方式及其具体内容,本文不予限制。
本实施例中,步骤102可以包括:构建数据模型,通过所述数据模型提取相关信息,得到所述特征数据集。这里,构建数据模型时可以采用RFM模型或其他类似的模型。对于该数据模型的具体构建方式,本文不予限制。
本实施例中,步骤103之前,还可以包括:分别对所述特征数据集中的增值业务使用频率、增值业务使用时长、增值业务使用类型数进行标准化处理。步骤103可以包括:将所述标准化处理后的特征数据集输入预先构建的K-Means模型,初始化所述K-Means模型的迭代参数,并设置所述K-Means模型的簇数为预设的用户分组总数;运行所述K-Means模型以对所述特征数据集执行聚类处理,最终得到所述用户分组的结果并输出。这里,用户分组的结果即为聚类处理得到的聚类结果。
这里,标准化处理可以通过多种方式实现。一种实现方式中,标准化处理的过程可以包括:按照x=(x-min)/(max-min)分别对增值业务使用频率、增值业务使用时长、增值业务使用类型数进行归一化,将其数值映射在[0,1]区间内,其中,x为增值业务使用频率、增值业务使用时长、或增值业务使用类型数的当前值,min为所有增值业务使用频率、增值业务使用时长或增值业务使用类型数中的最小值,max为所有增值业务使用频率、增值业务使用时长或增值业务使用类型数的最大值。另一种实现方式中,标准化处理的过程可以包括:按照x=(x-u)/σ分别对增值业务使用频率、增值业务使用时长、增值业务使用类型数进行标准化,其中,x为增值业务使用频率、增值业务使用时长或增值业务使用类型数的当前值,u为所有增值业务使用频率、增值业务使用时长或增值业务使用类型数的均值,σ为所有增值业务使用频率、增值业务使用时长或增值业务使用类型数的标准差。再一种实现方式中,标准化处理的过程可以包括:通过预先约定的数学函数(比如log、指数、正切等)分别将增值业务使用频率、增值业务使用时长、增值业务使用类型数的原始值进行映射。除此之外,还可采用其他方式,对于标准化处理的具体实现方式,本文不予限制。
本实施例中,步骤105可以有多种实现方式。一种实现方式中,可以生成对应各用户分组的分组数据集,将该分组数据集发送至增值业务系统,具体来说,此方式的实现过程可以包括:提取所述各用户分组下的用户标识,形成分组数据集,并按照相应用户分组的分组特征对所述分组数据集进行标记;将所述分组数据集送至增值业务系统。该方式中,分组数据集与用户分组一一对应,每个分组数据集以所对应用户分组的分组特征命名并包含相应用户分组下的用户信息,每条用户信息至少可以包括用户标识(除此之外,还可包含其他用户特征信息,比如,职业或地域等)。另一种实现方式中,可以将各用户分组的用户标识及其分组特征组合生成一个分组数据总集,该分组数据总集中包含所有用户分组的用户标识及其分组特征。具体来说,该实现方式可以包括:将各用户分组下每个用户标识与相应的分组特征合并为一条用户信息,该用户信息包括两个属性,分别是:用户标识和分组特征,将所有用户分组的所有用户信息存入分组数据总集,并将分组数据总集发送给增值业务系统。这里,分组数据总集中一条用户信息除了包含用户标识和分组特征之外,还可增设其他属性,比如用户的地域属性等(来自用户特征信息)。除上述方式之外,还可采用其他方式,对此,本文不予限制。
如图2所示,本发明实施例上述方法的示例性执行流程可以包括:
步骤201,获取增值业务记录;
步骤202,脱敏处理;
步骤203,数据预处理,排查缺失值和异常值;
步骤204,数据清洗;
步骤205,属性规约;
具体的,先构造RFM模型,R设置为用户在观测窗口内使用增值业务的频率,F为用户在观测窗口内使用增值业务的时长,M为用户在观测窗口内使用的增值业务种类;然后,根据所述RFM模型从清洗后的增值业务记录中提取聚类处理所需的特征信息,生成特征数据集。这里,观测窗口为预先设定的时段信息,比如,该观测窗口可以设置为一天、一个月、一年或其他类似的值。
步骤206,属性构造,构造符合聚类模型要求的数据;
具体的,构造适用于步骤208所述聚类模型的RFM指标,并利用特征数据集中的信息按照如下规则构造成与用户标识相对应的RFM指标数据;
R=在观测窗口内使用增值业务的频率;
F=观测窗口内使用增值业务的时长;
M=观测窗口内(即某个时段内)使用的增值业务种类;
步骤207,将步骤206构造的数据标准化;
步骤208,将步骤207标准化后的数据输入K-Means模型,执行聚类处理,得到聚类结果即用户分组的结果;
具体的,先初始化设置K-Means模型中簇数k和迭代条件,再将步骤207标准化后的数据输入该K-Means模型中进行聚类处理,聚类处理结束后K-Means模型输出聚类结果即用户分组的结果。
一种实现方式中,本步骤的示例性处理流程可以包括:
步骤1,设定分组总数(可以是默认值,也开始是人为输入的值,还可以是按照一定规则(比如,递进)生成的数值),以分组总数设置为K-Means模型的簇数k,设I=1,从标准化的数据集中n个数据样本中随机选择k个作为初始的簇中心,初始聚类中心Zj(I),j=1,2,3,...,k。
这里,一个数据样本即为一条与用户标识相对应的RFM指标数据。用户分组总数可以根据实际需要设定。比如,可以将分组总数设为5,相应的聚类结果有5类,最终也会将用户分为五类。
步骤2,计算每个数据样本与初始聚类中心的欧式距离D(xi,Zj(I)),其中,i=1,2,3,...,n,j=1,2,3,...,k。若满足D(xi,Zj *(I))=min{D(xi,Zj(I))},xi∈ωk,ωk为Zj *(I)所属的族。
步骤3,I=I+1,计算新聚类中心nj为簇ωj中的数据个数,j=1,2,3,...,k,计算误差平方和准则函数JC(I)的值;
步骤4,如果|JC(I)-JC(I-1)<ε则表示聚类处理结束,否则I=I+1,返回步骤2,其中ε可以设为0,也可以设为接近0的其他值。
当n个数据样本完全被挑选完成后表示一次迭代完成,如果在一次迭代完成之后,聚类准则函数的值没有发生变化,那么表示已经收敛,在迭代过程中聚类准则函数的值逐渐缩小,直到达到最小值为止。此外,还可以设置最大迭代次数,在迭代次数达到该最大迭代次数时,迭代过程结束。
步骤209,确定各用户分组的分组特征,生成对应各用户分组的分组数据集;
具体的,通过对步骤208得到的聚类结果即用户分组的结果进行数据分析,确定各用户分组的分组特征,形成对应各用户分组的分组数据集,所述分组数据集至少包含该用户分组下的用户标识,并标记有该用户分组的分组特征;
这里,可以分别计算各分组中增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值;根据所述增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值在各分组中的变化确定各组的分组特征。例如,如果当前分组的增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值中有两个或三个值居高,则该分组的分组特征可设为:高端用户。再例如,如果当前分组的增值业务使用频率的均值居高,则该分组的分组特征可设为:增值业务使用率高的用户群。
这里,分组数据集与各用户分组可以一一对应,每个用户分组的分组数据集包含分组下的用户标识,该用户标识可以是脱敏之后的用户标识,也可以是用户标识的原始值。举例来说,对于移动增值业务来说,每个分组数据集中可以包括相应用户分组的电话号码,该电话号码为脱敏处理后的电话号码。对于视频网站的VIP服务来说,每个分组数据集中可以包括该用户分组下的用户ID,该用户ID可以为原始值,也可以是脱敏处理后的值。
步骤210,将各分组数据集发送给增值业务系统,以便增值业务系统据此针对不同用户提供不同的增值服务。
需要说明的是,图2所示流程仅为本实施例所述方法的示例性实现方式。
本实施例的数据处理方法,可对各用户的增值业务记录进行处理实现用户分组,并将相应分组的用户标识提供给增值业务系统,以便增值业务系统据此向用户提供增值服务。
实施例二
一种增值业务的数据处理装置,如图3所示,可以包括:获取模块31、脱敏模块32、特征提取模块33、聚类模块34、确定模块35以及提供模块36;其中,
获取模块31,用于获取各用户的增值业务记录;
脱敏模块32,用于对所述增值业务记录进行脱敏处理并输出到特征提取模块;
特征提取模块33,用于从所述脱敏处理后的增值业务记录中提取信息,形成用于聚类处理的特征数据集,所述特征数据集至少包括用户标识、增值业务使用频率、增值业务使用时长、增值业务使用类型数;
聚类模块34,用于利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组;
确定模块35,用于根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征;
提供模块36,用于至少将所述用户分组的用户标识及其分组特征提供给增值业务系统。
一种实现方式中,上述数据处理装置还可以包括:标准化模块37,用于分别对来自所述特征提取模块的所述特征数据集的增值业务使用频率、增值业务使用时长、增值业务使用类型数进行标准化处理,并将所述标准化处理后的特征数据集输入预先构建的K-Means模型;所述聚类模块34,具体可用于预先构建的K-Means模型;以及,用于初始化所述K-Means模型的迭代参数,设置所述K-Means模型的簇数为预设的用户分组总数,运行所述K-Means模型以对所述特征数据集执行聚类处理,最终得到所述用户分组的结果并输出。
一种实现方式中,上述数据处理装置还可以包括:生成模块38,用于提取各用户分组下的用户标识,分别形成相应的分组数据集,并按照相应用户分组的分组特征对所述分组数据集进行标记;所述提供模块36,具体可用于将各用户分组的所述分组数据集发送给增值业务系统。
一种实现方式中,上述数据处理装置还可以包括:配置模块39,用于预先配置脱敏规则表;所述脱敏模块32,具体可用于识别每条增值业务记录中的敏感信息;从预先配置的脱敏规则表中查询对应所述敏感信息的脱敏规则,并按照所述脱敏规则对所述敏感信息执行脱敏操作。
一种实现方式中,上述数据处理装置中,确定模块35,具体可用于分别计算各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,根据所述增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值大小确定各用户分组的分组特征。
本实施例的其他技术细节可参照实施例一。
本实施例的数据处理装置可以通过任何能够执行实施例一所述数据处理方法的计算设备来实现。实际应用中,该计算设备可以是服务器、计算机、分布式系统等。
实施例三
一种数据处理装置,包括:存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现实施例一所述的数据处理方法。
本实施例的其他技术细节可参照实施例一。
需要说明的是,该数据处理装置可以通过任何能够执行实施例一所述数据处理方法的计算设备来实现。实际应用中,该计算设备可以是服务器、计算机、分布式系统等。
实施例四
一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时实现实施例一所述的数据处理方法。
本实施例的其他技术细节可参照实施例一。
应用场景
如图4所示,为本申请的示例性应用场景架构。该示例性应用场景中,数据处理集群可分别与增值业务系统、存储集群进行通信,增值业务系统负责向用户提供增值业务,存储集群负责存储增值业务系统收集的增值业务记录,数据处理集群负责实现本申请的技术方案(比如,执行实施例一所述的方法、配置实施例二所述的装置、作为实施例三的一种示例、设置实施例四所述的计算机可读介质等),通过获取存储集群中的增值业务记录对用户进行分组并将用户分组的相关信息(比如,用户标识以及分组特征)提供给增值业务系统,增值业务系统可基于此用户分组的相关信息向用户提供和/或推荐增值业务,以便有针对性的提供增值服务。需要说明的是,本申请还可应用其他应用场景下,对于具体的应用场景,本文不予限制。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取各用户的增值业务记录并进行脱敏处理;
从所述脱敏处理后的增值业务记录中提取信息,形成用于聚类处理的特征数据集,所述特征数据集至少包括用户标识、增值业务使用频率、增值业务使用时长、增值业务使用类型数;
利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组;
根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征;
至少将所述用户分组的用户标识及其分组特征提供给增值业务系统。
2.根据权利要求1所述的数据处理方法,其特征在于,
所述方法还包括:分别对所述特征数据集中的增值业务使用频率、增值业务使用时长、增值业务使用类型数进行标准化处理;
所述利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组,包括:将所述标准化处理后的特征数据集输入预先构建的K-Means模型,初始化所述K-Means模型的迭代参数,并设置所述K-Means模型的簇数为预设的用户分组总数;运行所述K-Means模型以对所述特征数据集执行聚类处理,最终得到所述用户分组的结果并输出。
3.根据权利要求1所述的数据处理方法,其特征在于,所述根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征,包括:
分别计算各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,根据所述增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值大小确定各用户分组的分组特征。
4.根据权利要求1所述的数据处理方法,其特征在于,
所述方法还包括:提取各用户分组下的用户标识,分别形成相应的分组数据集,并按照相应用户分组的分组特征对所述分组数据集进行标记;
所述至少将所述用户分组的用户标识及其分组特征提供给增值业务系统,包括:将各用户分组的所述分组数据集发送给增值业务系统。
5.根据权利要求1所述的数据处理方法,其特征在于,所述脱敏处理,包括:
识别每条增值业务记录中的敏感信息;
从预先配置的脱敏规则表中查询对应所述敏感信息的脱敏规则,并按照所述脱敏规则对所述敏感信息执行脱敏操作。
6.一种数据处理装置,其特征在于,包括:获取模块、脱敏模块、特征提取模块、聚类模块、确定模块以及提供模块;其中,
获取模块,用于获取各用户的增值业务记录;
脱敏模块,用于对所述增值业务记录进行脱敏处理并输出到特征提取模块;
特征提取模块,用于从所述脱敏处理后的增值业务记录中提取信息,形成用于聚类处理的特征数据集,所述特征数据集至少包括用户标识、增值业务使用频率、增值业务使用时长、增值业务使用类型数;
聚类模块,用于利用k–Means算法对所述特征数据集进行聚类处理,得到用户分组;
确定模块,用于根据各用户分组下增值业务使用频率、增值业务使用时长、增值业务使用类型数的均值,确定用户分组的分组特征;
提供模块,用于至少将所述用户分组的用户标识及其分组特征提供给增值业务系统。
7.根据权利要求6所述的数据处理装置,其特征在于,
还包括:标准化模块,用于分别对来自所述特征提取模块的所述特征数据集的增值业务使用频率、增值业务使用时长、增值业务使用类型数进行标准化处理,并将所述标准化处理后的特征数据集输入预先构建的K-Means模型;
所述聚类模块,具体用于预先构建的K-Means模型;以及,用于初始化所述K-Means模型的迭代参数,设置所述K-Means模型的簇数为预设的用户分组总数,运行所述K-Means模型以对所述特征数据集执行聚类处理,最终得到所述用户分组的结果并输出。
8.根据权利要求6所述的数据处理装置,其特征在于,
还包括:生成模块,用于提取各用户分组下的用户标识,分别形成相应的分组数据集,并按照相应用户分组的分组特征对所述分组数据集进行标记;
所述提供模块,具体用于将各用户分组的所述分组数据集发送给增值业务系统。
9.一种数据处理装置,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6任一项所述的数据处理方法。
10.一种计算机可读介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810525255.8A CN108984588A (zh) | 2018-05-28 | 2018-05-28 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810525255.8A CN108984588A (zh) | 2018-05-28 | 2018-05-28 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108984588A true CN108984588A (zh) | 2018-12-11 |
Family
ID=64542192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810525255.8A Pending CN108984588A (zh) | 2018-05-28 | 2018-05-28 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108984588A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188571A (zh) * | 2019-06-05 | 2019-08-30 | 深圳市优网科技有限公司 | 基于敏感数据的脱敏方法及系统 |
CN110737651A (zh) * | 2019-09-29 | 2020-01-31 | 武汉海昌信息技术有限公司 | 一种可还原脱敏的数据清洗及交换办法 |
CN110766591A (zh) * | 2019-09-06 | 2020-02-07 | 中移(杭州)信息技术有限公司 | 一种智能业务管理方法、装置、终端及存储介质 |
CN111190909A (zh) * | 2019-05-17 | 2020-05-22 | 延安大学 | 一种数据可信处理方法 |
CN112000980A (zh) * | 2020-07-06 | 2020-11-27 | 拉卡拉支付股份有限公司 | 数据处理方法及装置 |
CN114429341A (zh) * | 2022-01-24 | 2022-05-03 | 吉林银行股份有限公司 | 一种分组缴费方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824818A (zh) * | 2015-01-04 | 2016-08-03 | 中国移动通信集团河北有限公司 | 一种信息化管理方法、平台及系统 |
CN106997347A (zh) * | 2016-01-22 | 2017-08-01 | 华为技术有限公司 | 信息推荐方法及服务器 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107205009A (zh) * | 2016-03-18 | 2017-09-26 | 北京金山安全软件有限公司 | 一种推送增值业务信息的方法、装置及电子设备 |
-
2018
- 2018-05-28 CN CN201810525255.8A patent/CN108984588A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824818A (zh) * | 2015-01-04 | 2016-08-03 | 中国移动通信集团河北有限公司 | 一种信息化管理方法、平台及系统 |
CN106997347A (zh) * | 2016-01-22 | 2017-08-01 | 华为技术有限公司 | 信息推荐方法及服务器 |
CN107205009A (zh) * | 2016-03-18 | 2017-09-26 | 北京金山安全软件有限公司 | 一种推送增值业务信息的方法、装置及电子设备 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111190909A (zh) * | 2019-05-17 | 2020-05-22 | 延安大学 | 一种数据可信处理方法 |
CN110188571A (zh) * | 2019-06-05 | 2019-08-30 | 深圳市优网科技有限公司 | 基于敏感数据的脱敏方法及系统 |
CN110766591A (zh) * | 2019-09-06 | 2020-02-07 | 中移(杭州)信息技术有限公司 | 一种智能业务管理方法、装置、终端及存储介质 |
CN110737651A (zh) * | 2019-09-29 | 2020-01-31 | 武汉海昌信息技术有限公司 | 一种可还原脱敏的数据清洗及交换办法 |
CN112000980A (zh) * | 2020-07-06 | 2020-11-27 | 拉卡拉支付股份有限公司 | 数据处理方法及装置 |
CN114429341A (zh) * | 2022-01-24 | 2022-05-03 | 吉林银行股份有限公司 | 一种分组缴费方法、装置及设备 |
CN114429341B (zh) * | 2022-01-24 | 2022-12-02 | 吉林银行股份有限公司 | 一种分组缴费方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984588A (zh) | 一种数据处理方法及装置 | |
JP6261665B2 (ja) | コミュニティ内の接続の決定 | |
US8909646B1 (en) | Pre-processing of social network structures for fast discovery of cohesive groups | |
CN104394118B (zh) | 一种用户身份识别方法及系统 | |
CN110009174A (zh) | 风险识别模型训练方法、装置及服务器 | |
CN107193894B (zh) | 数据处理方法、个体识别方法及相关装置 | |
WO2016015444A1 (zh) | 一种目标用户的确定方法、设备和网络服务器 | |
CN107733854A (zh) | 一种网络虚拟用户的风险控制方法及系统 | |
CN108269087A (zh) | 位置信息的处理方法及装置 | |
WO2011132534A1 (ja) | 統計情報生成システム及び統計情報生成方法 | |
CN102388387A (zh) | 访问控制策略模板生成设备、系统、方法及程序 | |
CN105721629A (zh) | 用户标识匹配方法和装置 | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN112508630B (zh) | 异常会话群的检测方法、装置、计算机设备和存储介质 | |
CN108648017B (zh) | 易于扩展的用户需求匹配方法、装置、设备及存储介质 | |
CN105988998B (zh) | 关系网络构建方法及装置 | |
CN105827873B (zh) | 一种解决异地客户业务办理受限的方法及装置 | |
CN114240060A (zh) | 风险控制方法、风险处理系统、装置、服务器及存储介质 | |
JP7071948B2 (ja) | 対象地域の不動産の稼働率を推定するプログラム、装置及び方法 | |
CN111651741A (zh) | 用户身份识别方法、装置、计算机设备和存储介质 | |
CN110278208A (zh) | 基于区块链的智能家居信息交换系统及工作方法 | |
CN115563117A (zh) | 一种基于SaaS技术的多租户管理应用及其实现方法 | |
CN109034938B (zh) | 信息快速筛选匹配方法、装置、电子设备及存储介质 | |
CN115204888A (zh) | 一种目标账户识别方法、装置、存储介质和电子设备 | |
US11973841B2 (en) | System and method for user model based on app behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181211 |
|
RJ01 | Rejection of invention patent application after publication |