CN108121742A - 用户分类模型的生成方法及装置 - Google Patents

用户分类模型的生成方法及装置 Download PDF

Info

Publication number
CN108121742A
CN108121742A CN201611082186.5A CN201611082186A CN108121742A CN 108121742 A CN108121742 A CN 108121742A CN 201611082186 A CN201611082186 A CN 201611082186A CN 108121742 A CN108121742 A CN 108121742A
Authority
CN
China
Prior art keywords
data
user
classification
model
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611082186.5A
Other languages
English (en)
Inventor
邓逸斌
张晓川
徐睿
崔志顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guangdong Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201611082186.5A priority Critical patent/CN108121742A/zh
Publication of CN108121742A publication Critical patent/CN108121742A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例提供了一种用户分类模型的生成方法及装置。该方法中,首先调用Hadoop平台工具对样本库中的数据进行异常以及标准化处理,接着再根据业务需求也即预设的分类原则,对处理后的数据进行优化迭代处理,得到满足业务需求的用户分类模型,并输出与分类原则相对应的用户分类结果。在将本发明实施例提供的方法应用于营销信息的推荐中时,可以根据不同的业务需求自动生成用户的分类结果,从而相应的营销平台能够依据于自动产生的分类结果有针对性的进行推送营销信息,使得用户接收到符合其身份特征或使用习惯的营销信息,避免用户因为接收到过多无用的营销信息而产生反感,提高营销的有效性。

Description

用户分类模型的生成方法及装置
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种用户分类模型的生成方法及装置。
背景技术
营销活动推荐是一种常用的产品营销推广形式,触点渠道营销则是营销活动推荐的重要手段。随着业务发展,各触点渠道特别是移动设备触点开展的营销服务越来越丰富(移动设备触点,是指可通过接触等行为触发人机交互,以完成指令的移动设备/应用界面,如社交软件、移动APP等;触点营销,是指关于社媒营销高效实施的理论模式,主要通过触动点,借助触及线即互动传播媒介资源,使信息全方位覆盖到目标受众覆盖面)。
现有触点营销方案推荐模式大部分是以“业务需求找客户”为出发点,通过随机散播、信息轰炸等方式将营销信息传送至各触点渠道,然后由触点渠道各自重新开发营销推荐界面推送给客户,完成营销推荐目标。
然而,在实现本发明实施例的过程中发明人发现,现有的方式主要存在以下弊端:现有的营销推荐方法中,这种随机散播以及信息轰炸的方法属于盲目推荐方法,其没有具体的客户群体,很多客户群体与被推荐的营销信息关联不大,或者该客户群体并不适用于当前的营销信息,也即这样的方法并没有对客户群体进行有针对性的营销信息推荐,从而使得很多客户对于接收到的过多的营销信息产生反感情绪。
发明内容
本发明实施例提供了一种用户分类模型的生成方法及装置,用以克服采用现有的营销推荐方法中没有对客户群体进行针对性的营销信息推荐,使得客户产生反感情绪的缺陷。
第一方面,本发明实施例提供了一种用户分类模型的生成方法,包括:
调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据;其中,所述样本库为调用上传至Hadoop平台上的若干条用户数据构建的样本库,所述用户数据包括用户的个人信息以及用户的通信行为数据;
基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型,并输出与所述预设的分类原则相对应的用户分类结果。
可选地,所述调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,包括:
调用Hadoop平台中的Hive工具筛选所述样本库中的各条数据中的异常值,检查各条数据的缺失情况,并删除携带异常值或数据缺失的数据条目;
基于Java语言对筛选之后的各条数据进行标准化处理。
可选地,所述基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型,包括:
基于预设的分类原则,提取所述处理后的用户数据中与所述预设的分类原则相关的字段,并调用Mahout工具构建模型的宽表;
基于多层神经网络算法对所述宽表中的各级数据进行优化迭代处理,得到用户分类模型。
可选地,所述方法还包括:
接收上传至Hadoop平台上的若干条修正用户数据,不断更新所述样本库。
可选地,所述输出与所述预设的分类原则相对应的用户分类结果,包括:
将所述用户分类结果输出至综合数据业务平台,所述用户分类结果用于指示所述综合数据业务平台根据用户的分类情况向对应分类的用户推荐对应的营销信息。
第二方面,本发明实施例提供了一种用户分类模型的生成装置,包括:
数据筛选单元,用于调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据;其中,所述样本库为调用上传至Hadoop平台上的若干条用户数据构建的样本库,所述用户数据包括用户的个人信息以及用户的通信行为数据;
模型构建单元,用于基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型以及与所述预设的分类原则相对应的用户分类结果;
输出单元,用于输出所述用户分类结果。
可选地,所述数据筛选单元,进一步用于:
调用Hadoop平台中的Hive工具筛选所述样本库中的各条数据中的异常值,检查各条数据的缺失情况,并删除携带异常值或数据缺失的数据条目;
基于Java语言对筛选之后的各条数据进行标准化处理。
可选地,所述模型构建单元,进一步用于:
基于预设的分类原则,提取所述处理后的用户数据中与所述预设的分类原则相关的字段,并调用Mahout工具构建模型的宽表;
基于多层神经网络算法对所述宽表中的各级数据进行优化迭代处理,得到用户分类模型。
可选地,所述装置还包括接收单元,用于接收上传至Hadoop平台上的若干条修正用户数据,并不断更新所述样本库。
可选地,所述输出单元,进一步用于:
将所述用户分类结果输出至综合数据业务平台,所述用户分类结果用于指示所述综合数据业务平台根据用户的分类情况向对应分类的用户推荐对应的营销信息。
本发明实施例提供了一种用户分类模型的生成方法及装置。该方法中,首先调用Hadoop平台工具对样本库中的数据进行异常以及标准化处理,接着再根据业务需求也即预设的分类原则,对处理后的数据进行优化迭代处理,得到满足业务需求的用户分类模型,并输出与分类原则相对应的用户分类结果。不难理解的是,由于本发明实施例提供的方法能够根据不同的分类原则自动建模并输出相应的结果,因此在将本发明实施例提供的方法应用于营销信息的推荐中时,可以根据不同的业务需求自动生成用户的分类结果,从而相应的营销平台能够依据于自动产生的分类结果有针对性的进行推送营销信息,使得用户接收到符合其身份特征或使用习惯的营销信息,避免用户因为接收到过多无用的营销信息而产生反感,提高营销的有效性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明提供的一种用户分类模型的生成方法实施例流程图;
图2是本发明提供的一种用户分类模型的生成方法实施例具体流程图;
图3是本发明提供的另一种用户分类模型的生成方法实施例具体流程图;
图4是本发明提供的一种用户数据反馈实施例示意图;
图5是本发明提供的从Hadoop平台向IDP平台推送示意图;
图6是本发明提供的营销推荐界面示意图;
图7是现有技术中Freemarker模板引擎实现原理示意图;
图8是本发明提供的一种触点渠道H5营销推荐界面示意图;
图9是本发明提供的另一种触点渠道H5营销推荐界面示意图;
图10是本发明提供的另一种用户分类模型的生成装置实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,本发明实施例提供了一种用户分类模型的生成方法,如图1所示,包括:
S101、调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据;其中,样本库为调用上传至Hadoop平台上的若干条用户数据构建的样本库,用户数据包括用户的个人信息以及用户的通信行为数据;
具体来说,本发明实施例提供的方法主要是依托Hadoop平台来进行的。其中Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop平台上存储有用户数据的样本库,该样本库是通过上传至Hadoop平台上的海量用户数据构成的。其中这里的用户数据可以包括用户的个人信息(姓名、年龄、身份证号等等)也可以包括用户的通信行为数据(每月通话情况、每月流量使用情况、每月短信使用情况以及每月其他业务使用情况等等)。
在已经构建好样本库的基础上,当每一次接收到用户分类模型构建以及结果生成的请求后,调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据。不难理解的是,在进行建模之前首先对数据继续异常以及标准化处理可以保证样本库中的数据的有效性,避免由于数据不准确影响后续的建模步骤以及输出结果的精度。
S102、基于预设的分类原则,对处理后的用户数据进行优化迭代处理,得到用户分类模型,并输出与预设的分类原则相对应的用户分类结果。
具体来说,本发明实施例提供的方法可以根据不同的业务需求制定不同的分类原则,在根据不同的分类原则对经过步骤S101处理后的数据进行最优化迭代处理,从而得到满足分类原则的用户分类模型。这个模型构建的过程可以包括:选择样本库中的部分数据作为样本数据,基于预设的分类器对样本数据进行训练并基于自动学习算法进行建模。在模型建立好之后,向模型内输入样布库中的其他用户数据,接着基于这一分类模型可以输出与分类原则相对应的用户分类结果。
本发明实施例提供了一种用户分类模型的生成方法,该方法中,首先调用Hadoop平台工具对样本库中的数据进行异常以及标准化处理,接着再根据业务需求也即预设的分类原则,对处理后的数据进行优化迭代处理,得到满足业务需求的用户分类模型,并输出与分类原则相对应的用户分类结果。不难理解的是,由于本发明实施例提供的方法能够根据不同的分类原则自动建模并输出相应的结果,因此在将本发明实施例提供的方法应用于营销信息的推荐中时,可以根据不同的业务需求自动生成用户的分类结果,从而相应的营销平台能够依据于自动产生的分类结果有针对性的进行推送营销信息,使得用户接收到符合其身份特征或使用习惯的营销信息,避免用户因为接收到过多无用的营销信息而产生反感,提高营销的有效性。
在具体实施时,上述方法实施例里步骤S101中的调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据的步骤可以通过多种方式来实施,下面对其中一种可选的实施方式进行介绍。如图2所示,具体包括:
S1011、调用Hadoop平台中的Hive工具筛选样本库中的各条数据中的异常值,检查各条数据的缺失情况,并删除携带异常值或数据缺失的数据条目;
具体来说,首先调用Hadoop平台中的Hive工具来进行异常筛选。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL(Structured Query Language,结构化查询语言)查询功能,可以将SQL语句转换为MapReduce(一种编程模型)任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive工具可以对样本库中各条数据中的异常值进行筛选,同时检查各条数据中是否存在数据缺失的情况,如果发现某一条目的数据中包含异常值或某个数据缺失,则将该条目的数据删除,从而保证样本库中数据的准确性。
S1012、调用Java工具对筛选之后的各条数据进行标准化处理。
接着,在基于Java语言对筛选之后的各条数据进行标准化处理。标准化的目的其实是为了使得模型宽表(数据库中的一种多级分类表)中的每一个字段X={Xi}不会因为量纲不同而产生混乱的影响,计算公式如下:
其中,是X={Xi}的均值,s(X)是X={Xi}的标准差。
不难理解的是,本发明实施例采用上述所述的Hive-Java双线闭环开发方式,能够实现程序自主开发、模型兼容算法。Hive可以实现标准SQL到基于Map-Reduce的Java智能转换,高效完成ETL处理等工作(Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)。而Java是Hadoop的底层语言,既减少使用其他工具所带来的延时及资源消耗,又使模型算法的开发将不再限制于工具的应用,一般来说,只要有明确的模型算法,都可以应用Java得到实现。然而,Hive的处理能力有限,不能满足常规模型构建的工作,需要利用Java在Hadoop上的通用性,结合Java以实现各种不同的业务需求。因此,充分结合Hive和Java各自特性,实现在Hadoop平台上的优势互补,构成Hive-Java双线闭环开发技术,为满足各项需求建好开发环境。
在具体实施时,上述方法实施例里步骤S102中的基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型的步骤可以通过多种方式来实施,下面对其中一种可选的实施方式进行介绍。如图3所示,具体包括:
S1021、基于预设的分类原则,提取处理后的用户数据中与预设的分类原则相关的字段,并基于多层神经网络算法调用Mahout工具构建模型的宽表;
具体来说,可以基于预设的分类原则,提取数据中与预设分类原则相关的字段。例如如果想要得到用户身份标签的分类结果,则可以提取每一条用户数据中与用户身份相关的信息(职业、工作单位等等)。接着调用Mahout工具构建模型的宽表。其中,这里的宽表指的是一种具有多级层次的较为复杂的数据库表。
S1022、基于多层神经网络算法(MLP),对宽表中的各级数据进行优化迭代处理,得到用户分类模型。
具体来说,处理过程可以如下所示:
假设解析变量空间X={x(i)}∈RK×m,响应变量空间为Y={y(i)}∈R5×m
模型包含一隐藏层,则模型层数L=3,第i层输入的值为z(l),第i层输出的值为a(l),模型学习速率为α,模型迭代停止阀值∈=10-3
1)初始化系数矩阵θ,
2)根据系数矩阵θ向前递推计算:
For i in 1:m (2)
Step 1计算输入层:a(1)=x(i)
Step 2计算隐藏层:
a(2)=g(z(2)) (3)
Step 3计算输出层:
a(3)=hθ(x(i))=g(z(3)) (4)
3)最优化函数:
构建最优化函数组如下,
4)根据向后传播算法,计算各系数偏置的梯度矩阵W,
5)根据各系数偏置的梯度矩阵W,调整系数矩阵θ,
θ=θ+αW (8)
并计算系数变化值B,
B=∑|W| (9)
6)重复步骤2)至6),直到B≤∈,
7)根据迭代得到的系数矩阵θ,执行步骤2),得到最终的模型结果。
需要说明的是,上述所述方法为本发明实施例提供的基于HMP(Hadoop-Mahout-Python)三位一体的分析建模架构方式,也即基于Hadoop平台,应用Mahout和Python构建分析建模体系。此外,这里采用Python、R语言作为胶水语言(胶水语言是指把不同的语言编写的模块打包起来,最外层使用Python、R调用这些封装好的包,Python、R就像胶水一样把各个模块粘在一起),通过相关函数包实现在Hadoop集群上的分析计算。Mahout直接基于Hadoop实现相关机器学习算法,转化为Map-Reduce模式,极大提升了算法可处理的数据量和处理性能。因此,HMP三位一体的分析建模架构便于建模人员在Hadoop上实现数据分析挖掘工作,可以满足绝大多数的分析挖掘需求。
此外,基于Hadoop云平台,Mahout包含众多机器学习算法,并且可以直接应用到Hadoop上模型的构建中,而结合Python可实现除模型核心算法构建以外的相关工作。Python的应用,通过Hadoop Streaming可以得到更灵活的实现,而且相对于Hive来说,应用范围更广,能够更好地结合Mahout去实现整体的需求。
在具体实施时,为了能够保证样本库数据的有效性以及实时性,本发明实施例提供的方法还包括:
S103、接收上传至Hadoop平台上的若干条修正用户数据,不断更新样本库。
具体来说,如图4所示,本发明实施例提供的方法在经过建模输出用户分类结果之后,可以将这一结果下发至相应的营销部门。由营销部门的工作人员对结果进行人工检验,再将检验结果反馈至Hadoop平台。在Hadoop平台接收到若干条修正用户数据后,不断更新平台上存储的样本库,从而能够对样本库中的用户数据进行及时更新,保证数据的有效性以及实时性。
在具体实施时,为了提高营销信息推送的速度,提升推送效率,本发明实施例提供的方法还可以包括:
S104、将用户分类结果输出至综合数据业务平台,该用户分类结果用于指示综合数据业务平台根据用户的分类情况向对应分类的用户推荐对应的营销信息。
具体来说,如图5所示,可以将Hadoop平台上输出的用户分类结果输出到IDP平台(也即综合数据业务平台),其中IDP平台是一种开放化的、模块化的、基于标准的基础平台,可以将Hadoop云平台推送的用户分类结果(例如用户名单、标签等)应用到实际的活动营销中,为移动运营商提供底层基础服务以及上层各种业务之间的联系。IDP一体化平台整体上由两部分组成,一部分是营销智能整合模块,实现活动上架、推荐、办理一体化;另一部分是基于“H5”智能模板实现即插式扩展触点渠道模块,这一部分可以快捷地通过触点渠道(例如微信等互动平台)实现营销信息的推送。
对于第一部分也即营销智能整合模块来说。现有技术中在需要上架一个新的营销活动时,由于没有一个统一的运行平台,因此需要在各个系统上来回切换多次。经过多个系统上的审批流程后,在获取到用户的号码时,还需要人工去分发给不同的触点渠道,以供触点渠道进行信息的推送,这样的方式不仅效率低下操作困难,而且往往需要1-2个星期才能完成活动的上架,难以满足紧急的活动要求。
因此,本发明实施例中将用户分类结果输出到IDP平台,并经由IDP平台根据用户的分类结果分发至各个触点渠道,从而为业务人员提供了一个统一的平台,营销人员仅需登录IDP平台即可获知当前需要上架的营销信息,例如可以观看如图6所示的营销推荐界面,无需经过各个平台的切换与审批。且该平台能够自动将用户分类的结果分发至各个触点渠道,无需人工操作,不仅方便省事,又能提高作业的效率。
对于第二部分也即基于“H5”智能模板实现即插式扩展触点渠道模块来说,现有技术中在有新的触点渠道加入时,需要花费一段时间重复开发营销优惠营销推荐界面,过长的开发时间导致活动上线的延迟以及营销时机的错失。而基于“H5”智能模板的即插式服务接口扩展触点渠道,使得在新的触点渠道加入情况下,无需重新开发营销推荐界面,快速响应框架提供H5页面级服务接口,方便加入触点渠道快铺设营销优惠业务。
H5模板采用开源的FreeMarker模板引擎实现,FreeMarker是一款模板引擎,其原理如图7所示:即一种基于模板、用来生成输出文本(任何来自于HTML格式的文本用来自动生成源代码)的通用工具。它是为Java程序员提供的一个开发包,或者说是一个类库。它不是面向最终用户的,而是为程序员提供的一款可以嵌入他们所开发产品的应用程序。
当营销活动需要上架时,IDP平台可支持通过FreeMarker模板引擎生成H5页面,再根据用户的分类结果直接将营销信息推送到对应的web端、手机app端等。
此外,H5界面的生成引入静态化技术,每个静态化界面有固定URL地址,对于界面中可变动内容支持动态加载数据,如每个接触客户号码客户画像信息不同的需动态获取。在不同触点渠道根据模板引擎生成不同H5营销推荐界面。例如图8、图9示出的对应于两种不同触点基于不同模板生成的营销推荐界面,从而使得营销信息的界面能够适应于不同触点的需求。
第二方面,本发明实施例还提供了一种用户分类模型的生成装置,如图10所示,包括:数据筛选单元201、模型构建单元202以及输出单元203。
其中,数据筛选单元201用于调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据;其中,所述样本库为调用上传至Hadoop平台上的若干条用户数据构建的样本库,所述用户数据包括用户的个人信息以及用户的通信行为数据;模型构建单元202用于基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型以及与所述预设的分类原则相对应的用户分类结果;输出单元203用于输出所述用户分类结果。
本发明实施例提供了一种用户分类模型的生成装置,该装置中,数据筛选单元201首先调用Hadoop平台工具对样本库中的数据进行异常以及标准化处理,接着模型构建单元202再根据业务需求也即预设的分类原则,对处理后的数据进行优化迭代处理,得到满足业务需求的用户分类模型,最后输出单元203输出与分类原则相对应的用户分类结果。不难理解的是,由于本发明实施例提供的装置能够根据不同的分类原则自动建模并输出相应的结果,因此在将本发明实施例提供的方法应用于营销信息的推荐中时,可以根据不同的业务需求自动生成用户的分类结果,从而相应的营销平台能够依据于自动产生的分类结果有针对性的进行推送营销信息,使得用户接收到符合其身份特征或使用习惯的营销信息,避免用户因为接收到过多无用的营销信息而产生反感,提高营销的有效性。
在具体实施时,数据筛选单元201进一步用于:调用Hadoop平台中的Hive工具筛选样本库中的各条数据中的异常值,检查各条数据的缺失情况,并删除携带异常值或数据缺失的数据条目;基于Java语言对筛选之后的各条数据进行标准化处理。
在具体实施时,模型构建单元202进一步用于:基于预设的分类原则,提取处理后的用户数据中与预设的分类原则相关的字段,并调用Mahout工具构建模型的宽表;基于多层神经网络算法对宽表中的各级数据进行优化迭代处理,得到用户分类模型。
在具体实施时,本发明实施例提供的装置还包括接收单元204用于接收上传至Hadoop平台上的若干条修正用户数据,并不断更新样本库。
在具体实施时,输出单元203进一步用于:将用户分类结果输出至综合数据业务平台,用户分类结果用于指示综合数据业务平台的应用程序根据用户的分类情况向对应分类的用户推荐对应的营销信息。
由于本实施例所介绍的用户分类模型的生成装置为可以执行本发明实施例中的用户分类模型的生成方法的装置,故而基于本发明实施例中所介绍的用户分类模型的生成的方法,本领域所属技术人员能够了解本实施例的用户分类模型的生成装置的具体实施方式以及其各种变化形式,所以在此对于该用户分类模型的生成装置如何实现本发明实施例中的用户分类模型的生成方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中用户分类模型的生成方法所采用的装置,都属于本申请所欲保护的范围。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的某些部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种用户分类模型的生成方法,其特征在于,包括:
调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据;其中,所述样本库为调用上传至Hadoop平台上的若干条用户数据构建的样本库,所述用户数据包括用户的个人信息以及用户的通信行为数据;
基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型,并输出与所述预设的分类原则相对应的用户分类结果。
2.根据权利要求1所述的方法,其特征在于,所述调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,包括:
调用Hadoop平台中的Hive工具筛选所述样本库中的各条数据中的异常值,检查各条数据的缺失情况,并删除携带异常值或数据缺失的数据条目;
基于Java语言对筛选之后的各条数据进行标准化处理。
3.根据权利要求1所述的方法,其特征在于,所述基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型,包括:
基于预设的分类原则,提取所述处理后的用户数据中与所述预设的分类原则相关的字段,并调用Mahout工具构建模型的宽表;
基于多层神经网络算法对所述宽表中的各级数据进行优化迭代处理,得到用户分类模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收上传至Hadoop平台上的若干条修正用户数据,不断更新所述样本库。
5.根据权利要求1所述的方法,其特征在于,所述输出与所述预设的分类原则相对应的用户分类结果,包括:
将所述用户分类结果输出至综合数据业务平台,所述用户分类结果用于指示所述综合数据业务平台根据用户的分类情况向对应分类的用户推荐对应的营销信息。
6.一种用户分类模型的生成装置,其特征在于,包括:
数据筛选单元,用于调用Hadoop平台工具对样本库中的各条数据进行异常筛选以及标准化处理,得到处理后的用户数据;其中,所述样本库为调用上传至Hadoop平台上的若干条用户数据构建的样本库,所述用户数据包括用户的个人信息以及用户的通信行为数据;
模型构建单元,用于基于预设的分类原则,对所述处理后的用户数据进行优化迭代处理,得到用户分类模型以及与所述预设的分类原则相对应的用户分类结果;
输出单元,用于输出所述用户分类结果。
7.根据权利要求6所述的装置,其特征在于,所述数据筛选单元,进一步用于:
调用Hadoop平台中的Hive工具筛选所述样本库中的各条数据中的异常值,检查各条数据的缺失情况,并删除携带异常值或数据缺失的数据条目;
基于Java语言对筛选之后的各条数据进行标准化处理。
8.根据权利要求6所述的装置,其特征在于,所述模型构建单元,进一步用于:
基于预设的分类原则,提取所述处理后的用户数据中与所述预设的分类原则相关的字段,并调用Mahout工具构建模型的宽表;
基于多层神经网络算法对所述宽表中的各级数据进行优化迭代处理,得到用户分类模型。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括接收单元,用于接收上传至Hadoop平台上的若干条修正用户数据,并不断更新所述样本库。
10.根据权利要求6所述的装置,其特征在于,所述输出单元,进一步用于:
将所述用户分类结果输出至综合数据业务平台,所述用户分类结果用于指示所述综合数据业务平台根据用户的分类情况向对应分类的用户推荐对应的营销信息。
CN201611082186.5A 2016-11-30 2016-11-30 用户分类模型的生成方法及装置 Pending CN108121742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611082186.5A CN108121742A (zh) 2016-11-30 2016-11-30 用户分类模型的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611082186.5A CN108121742A (zh) 2016-11-30 2016-11-30 用户分类模型的生成方法及装置

Publications (1)

Publication Number Publication Date
CN108121742A true CN108121742A (zh) 2018-06-05

Family

ID=62226131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611082186.5A Pending CN108121742A (zh) 2016-11-30 2016-11-30 用户分类模型的生成方法及装置

Country Status (1)

Country Link
CN (1) CN108121742A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285036A (zh) * 2018-09-21 2019-01-29 中国联合网络通信集团有限公司 物联网业务营销方法、装置及存储介质
CN109284298A (zh) * 2018-11-09 2019-01-29 上海晏鼠计算机技术股份有限公司 一种基于机器学习和大数据处理的内容生产系统
CN109299178A (zh) * 2018-09-30 2019-02-01 北京九章云极科技有限公司 一种模型应用方法和数据分析系统
CN109739869A (zh) * 2018-12-29 2019-05-10 北京航天数据股份有限公司 模型运行报告生成方法及系统
CN110135898A (zh) * 2019-04-25 2019-08-16 上海淇毓信息科技有限公司 基于配置的客户营销召回方法、装置和电子设备
CN110322899A (zh) * 2019-06-18 2019-10-11 平安银行股份有限公司 用户智能分类方法、服务器及存储介质
CN113220801A (zh) * 2021-05-17 2021-08-06 支付宝(杭州)信息技术有限公司 一种结构化数据分类方法、装置、设备及介质
CN114942857A (zh) * 2021-11-11 2022-08-26 北京电信发展有限公司 一种多模态业务智能诊断系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200262A (zh) * 2013-04-02 2013-07-10 亿赞普(北京)科技有限公司 一种基于移动网络的广告调度方法、装置及系统
CN105405047A (zh) * 2015-12-30 2016-03-16 广东科海信息科技股份有限公司 一种基于社区o2o的数据分析系统及其实现方法
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200262A (zh) * 2013-04-02 2013-07-10 亿赞普(北京)科技有限公司 一种基于移动网络的广告调度方法、装置及系统
CN105405047A (zh) * 2015-12-30 2016-03-16 广东科海信息科技股份有限公司 一种基于社区o2o的数据分析系统及其实现方法
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285036A (zh) * 2018-09-21 2019-01-29 中国联合网络通信集团有限公司 物联网业务营销方法、装置及存储介质
CN109285036B (zh) * 2018-09-21 2021-05-18 中国联合网络通信集团有限公司 物联网业务处理方法、装置及存储介质
CN109299178A (zh) * 2018-09-30 2019-02-01 北京九章云极科技有限公司 一种模型应用方法和数据分析系统
CN109299178B (zh) * 2018-09-30 2020-01-14 北京九章云极科技有限公司 一种模型应用方法和数据分析系统
CN109284298A (zh) * 2018-11-09 2019-01-29 上海晏鼠计算机技术股份有限公司 一种基于机器学习和大数据处理的内容生产系统
CN109739869A (zh) * 2018-12-29 2019-05-10 北京航天数据股份有限公司 模型运行报告生成方法及系统
CN110135898A (zh) * 2019-04-25 2019-08-16 上海淇毓信息科技有限公司 基于配置的客户营销召回方法、装置和电子设备
CN110322899A (zh) * 2019-06-18 2019-10-11 平安银行股份有限公司 用户智能分类方法、服务器及存储介质
CN110322899B (zh) * 2019-06-18 2023-09-22 平安银行股份有限公司 用户智能分类方法、服务器及存储介质
CN113220801A (zh) * 2021-05-17 2021-08-06 支付宝(杭州)信息技术有限公司 一种结构化数据分类方法、装置、设备及介质
CN113220801B (zh) * 2021-05-17 2022-07-29 支付宝(杭州)信息技术有限公司 一种结构化数据分类方法、装置、设备及介质
CN114942857A (zh) * 2021-11-11 2022-08-26 北京电信发展有限公司 一种多模态业务智能诊断系统

Similar Documents

Publication Publication Date Title
CN108121742A (zh) 用户分类模型的生成方法及装置
US11979433B2 (en) Highly scalable four-dimensional web-rendering geospatial data system for simulated worlds
US11106986B2 (en) Systems and methods for modeling machine learning and data analytics
Stergiou et al. Recent advances delivered by mobile cloud computing and internet of things for big data applications: a survey
US11086687B2 (en) Managing resource allocation in a stream processing framework
Vera-Baquero et al. Real-time business activity monitoring and analysis of process performance on big-data domains
US9965330B2 (en) Maintaining throughput of a stream processing framework while increasing processing load
US20190155646A1 (en) Providing strong ordering in multi-stage streamng processing
US11755461B2 (en) Asynchronous consumer-driven contract testing in micro service architecture
CN109446274B (zh) 大数据平台bi元数据管理的方法和装置
CN107103064B (zh) 数据统计方法及装置
US9396448B2 (en) Distributed and open schema interactions management system and method
CN107291744A (zh) 确定及运用应用程序之间的关系关联的方法及装置
JP2020521238A (ja) キャッシュ最適化及び効率的な処理のためのデータ集約の方法
CN111680799A (zh) 用于处理模型参数的方法和装置
CN114820080A (zh) 基于人群流转的用户分群方法、系统、装置及介质
Bellini et al. Managing complexity of data models and performance in broker-based Internet/Web of Things architectures
Akingbesote et al. Performance modeling of proposed guiset middleware for mobile healthcare services in e‐marketplaces
CN113326305A (zh) 一种处理数据的方法和装置
Xia et al. Optimizing an index with spatiotemporal patterns to support GEOSS Clearinghouse
CN112506887A (zh) 车辆终端can总线数据处理方法及装置
Wang et al. Sublinear algorithms for big data applications
US20170031884A1 (en) Automated dependency management based on page components
Cha et al. Draft design of Li-fi based acquisition layer of DataLake framework for IIoT and smart factory
Yousfi et al. Big Data-as-a-service solution for building graph social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180605

RJ01 Rejection of invention patent application after publication