CN102724290B - 一种获取目标客户群的方法、设备及系统 - Google Patents

一种获取目标客户群的方法、设备及系统 Download PDF

Info

Publication number
CN102724290B
CN102724290B CN201210161736.8A CN201210161736A CN102724290B CN 102724290 B CN102724290 B CN 102724290B CN 201210161736 A CN201210161736 A CN 201210161736A CN 102724290 B CN102724290 B CN 102724290B
Authority
CN
China
Prior art keywords
server
file
task
cluster
cluster server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210161736.8A
Other languages
English (en)
Other versions
CN102724290A (zh
Inventor
舒俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210161736.8A priority Critical patent/CN102724290B/zh
Publication of CN102724290A publication Critical patent/CN102724290A/zh
Application granted granted Critical
Publication of CN102724290B publication Critical patent/CN102724290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供的获取目标客户群的方法、设备及系统,涉及移动互联网领域,提高了系统负载的均衡能力,同时使系统的可扩展性增强。该方法包括集群服务器接收任务服务器发送的任务文件;该任务文件为任务服务器分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的;集群服务器接收ETL工具发送的等额用户互联网数据,并针对该用户互联网数据执行任务文件中的各个子任务,生成结果文件,并上传至汇总服务器;以使得汇总服务器根据该结果文件生成目标客户群数据信息,并上传到文件服务器。本发明实施例适用于由互联网数据中获取目标客户群的场景。

Description

一种获取目标客户群的方法、设备及系统
技术领域
本发明涉及移动互联网的数据分析领域,尤其涉及一种移动互联网行为分析获取目标客户群的方法、设备及系统。
背景技术
随着移动互联网规模的日益庞大与内容不断丰富,手机阅读、无线音乐、手机支付、手机导航和飞信等丰富多彩的移动互联网应用正逐渐渗透到人们生活、工作等领域,并进而改变着个人生活。在此发展形势下,迫切需要提高对移动互联网业务发展的业务支撑手段。
为了更好支撑移动互联网业务的发展,需要对用户访问移动互联网行为进行深入分析,该访问行为里面蕴含着丰富的客户信息,如客户在手机上浏览了什么新闻和小说,通过搜索引擎搜索了什么关键字,在购物网站上购买了什么产品等等。根据这些信息即可以进行业务的内容分析、业务热点分析以及客户偏好分析等,从而更好把握客户需求,以支撑移动互联网新业务的精准营销。
在此背景下建设了移动互联网行为分析系统,移动互联网行为分析系统需要从海量的用户上网日志中,根据定义的获取目标客户群的规则,以及通过对用户互联网数据搜索及规则计算,得到需要的目标客户群。
参考图1,现有技术中的移动互联网行为分析系统获取目标客户群的方法具体为:CKM向任务服务器发送获取目标客户群的任务;任务服务器接收到该任务后,将该任务写入到任务文件中,分发到各个地市服务器;每个地市服务器均保存该地市的所有用户的上网信息数据,当地市服务器接收到任务文件中的任务后,进行信息搜索及规则计算,得到该地市的目标客户群,并生成地市目标客户群结果文件,上传到文件服务器。
现有技术将计算能力按照地市进行了服务器划分,各个地市的数据处理互不影响,每个任务可以按照地市进行分解为多任务并行计算,在一定程度上解决了性能问题。但是,在当某个地市的数据量大幅上升后,无法通过增加服务器来解决性能的问题,可扩展性比较差;另外,由于每个地市的用户数据差异较大,无法避免的出现负载无法均衡的情况;还有,当该系统中某个地市分服务器出现问题而无法使用时,该地市分服务器对应的任务由于无法执行而丢失,可靠性较低。
发明内容
本发明的实施例提供一种获取目标客户群的方法、设备及系统,用以增强移动互联网行为分析系统的可扩展性,同时提高系统负载的均衡能力。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,本发明提供了一种获取目标客户群的方法,包括:
集群服务器接收任务服务器发送的任务文件;所述任务文件为所述任务服务器分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的;
接收数据提取、转换和加载ETL工具根据所述集群服务器的数量发送的等额用户互联网数据;
针对所述用户互联网数据执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器;以使得所述汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
另一方面,本发明提供了一种获取目标客户群的方法,包括:
任务服务器接收CKM发起的初始任务;
分解所述初始任务,得到多个子任务;
根据集群服务器的数量将所有子任务平均分成多份,并将每一份写入对应的文件中,形成对应于各自集群服务器的任务文件;
将所述任务文件发送给对应的每个集群服务器;以使得所述每个集群服务器针对其接收到的用户互联网数据执行所述任务文件中的各个子任务,生成相应的结果文件,并上传到汇总服务器,以便所述汇总服务器根据所述每个集群服务器上传的所述结果文件生成目标客户群数据信息,并上传到文件服务器;其中,所述用户互联网数据为ETL工具根据所述集群服务器的数量分配的等额用户互联网数据。
再一方面,本发明提供了一种获取目标客户群的方法,包括:
汇总服务器接收每个集群服务器发送的结果文件;所述结果文件为所述每个集群服务器接收到任务服务器发送的对应于各自集群服务器的任务文件,针对其接收到的用户互联网数据,执行所述任务文件中的各个子任务后生成的;其中,所述用户互联网数据为ETL工具根据集群服务器的数量分配的等额用户互联网数据;所述任务文件为所述任务服务器分解CKM发起的初始任务,得到多个子任务后,根据所述集群服务器的数量将分解的所有子任务平均分成多份,并将每一份写入对应的文件得到的;
按照所述结果文件的至少一个特征量,汇总所述结果文件中的数据信息,得到数据信息集合;
按照获取目标客户群的规则,从所述数据信息集合中搜索得到目标客户群数据信息,并上传所述目标客户群数据信息到文件服务器。
再一方面,本发明提供了一种获取目标客户群的方法,包括:
在用户互联网数据库中,数据提取、转换和加载ETL工具按照预先设置的抽取规则,进行数据抽取;
根据集群服务器的数量将等额的用户互联网数据发送到每个集群服务器中;以使得所述每个集群服务器在接收到任务服务器发送的任务文件后,针对各自集群服务器中的所述用户互联网数据,执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器,以便汇总服务器生成目标客户群信息,并上传到文件服务器;其中,所述任务文件为所述任务服务器分解CKM发起的初始任务,得到多个子任务后,根据所述集群服务器的数量将所有子任务平均分成多份,并将每一份写入对应的文件后得到的。
再一方面,本发明提供了一种集群服务器,包括:
第一接收模块,用于接收任务服务器发送的任务文件;所述任务文件为所述任务服务器分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的;
第二接收模块,用于接收数据提取、转换和加载ETL工具根据所述集群服务器的数量发送的等额用户互联网数据;
执行模块,用于针对所述第二接收模块接收到的所述用户互联网数据执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器;以使得所述汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
再一方面,本发明还提供了一种集群服务器,所述集群服务器包括:主结点服务器和子结点服务器;其中,所述主结点服务器包括:第一接收模块和第一分发模块;
所述第一接收模块,用于接收任务服务器发送的任务文件;所述任务文件为所述任务服务器分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的;
所述第一分发模块,用于将所述任务文件中的各个子任务分发给各个所述子结点服务器;
子结点服务器包括:第二接收模块和执行模块;
所述第二接收模块,用于接收ETL工具根据所述集群服务器的数量发送的等额用户互联网数据;并接收所述第一分发模块发送的所述各个子任务;
所述执行模块,用于针对第二接收模块接收到的所述用户互联网数据执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器;以使得所述汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
再一方面,本发明还提供了一种任务服务器,包括:
接收模块,用于接收CKM发起的初始任务;
处理模块,用于分解所述初始任务,得到多个子任务;根据集群服务器的数量将分解后的所有子任务平均分成多份,并将每一份写入对应的文件中,形成对应于各自集群服务器的任务文件;
发送模块,用于将所述任务文件发送给对应的每个集群服务器;以使得所述每个集群服务器针对其接收到的用户互联网数据执行所述任务文件中的各个子任务,生成相应的结果文件,并上传到汇总服务器,以便所述汇总服务器根据所述集群服务器上传的所述结果文件生成目标客户群数据信息,并上传到文件服务器;其中,所述用户互联网数据为ETL工具根据所述集群服务器的数量分配的等额用户互联网数据。
再一方面,本发明还提供了一种汇总服务器,包括:
接收模块,用于接收每个集群服务器发送的结果文件;所述结果文件为所述每个集群服务器接收到任务服务器发送的对应于各自集群服务器的任务文件,针对其接收到的用户互联网数据,执行所述任务文件中的各个子任务后生成的;其中,所述用户互联网数据为ETL工具根据集群服务器的数量分配的等额用户互联网数据;所述任务文件为所述任务服务器分解CKM发起的初始任务,得到多个子任务后,根据所述集群服务器的数量将分解的所有子任务平均分成多份,并将每一份写入对应的文件得到的;
处理模块,用于按照所述结果文件的至少一个特征量,汇总所述结果文件中的数据信息,得到数据信息集合;
发送模块,用于按照获取目标客户群的规则,从所述数据信息集合中搜索得到目标客户群数据信息,并上传所述目标客户群数据信息到文件服务器。
再一方面,本发明还提供了一种数据提取、转换和加载ETL工具,包括:
处理模块,在用户互联网数据库中,按照预先设置的抽取规则,进行数据抽取;
发送模块,用于根据集群服务器的数量将等额的用户互联网数据发送到每个集群服务器中;以使得所述每个集群服务器在接收到任务服务器发送的任务文件后,针对各自集群服务器中的用户互联网数据,执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器,以便汇总服务器生成目标客户群信息,并上传到文件服务器;其中,所述任务文件为所述任务服务器分解CKM发起的初始任务后,得到多个子任务后,根据所述集群服务器的数量将分解后的所有子任务平均分成多份,并将每一份写入对应的文件后得到的。
再一方面,本发明提供了一种获取目标客户群的系统,包括:
CKM;
文件服务器;
上述任一集群服务器;
上述任一任务服务器;
上述任一汇总服务器;
上述任一ETL工具。
本发明实施例提供的获取目标客户群的方法、设备及系统,任务服务器将初始任务进行更细的分解,使每个集群服务器处理的子任务数量相同,且每个集群服务器处理的用户互联网数据量也基本相同,以使系统负载均衡的能力得到了更大提高;在移动上网用户成倍增长时,只需通过扩展集群服务器的数量或单个集群服务器的子结点数量,来提升系统的处理能力,从而增强移动互联网行为分析系统的可扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中获取目标客户群的系统架构示意图;
图2为本发明实施例提供的获取目标客户群的系统架构示意图;
图3为本发明实施例提供的获取目标客户群的方法的流程图;
图4为本发明实施例提供的获取目标客户群的系统的信令流示意图;
图5为本发明实施例提供的获取目标客户群的方法中预处理过程流程示意图;
图6为本发明实施例提供的获取目标客户群的方法中生成目标客户群数据信息的示意图;
图7为本发明实施例提供的集群服务器的结构示意框图;
图8为本发明实施例提供的集群服务器的另一结构示意框图;
图9为本发明实施例提供的任务服务器的结构示意框图;
图10为本发明实施例提供的汇总服务器的结构示意框图;
图11为本发明实施例提供的ETL工具的结构示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种获取目标客户群的系统,该系统通常为移动互联网行为分析系统,示例性的,如图2所示,该系统包括:CKM(CustomerKnowledge Management,客户知识管理平台),文件服务器,集群服务器,任务服务器,汇总服务器以及ETL(Extraction-Transformation-Loading,数据提取、转换和加载)工具。
其中的CKM以及文件服务器,都为现有技术,用在本系统中可以执行本实施例中的CKM以及文件服务器对应的所有动作,在对此不做过多描述。对于该系统中的其他设备在下面的实施例中再做详述。
参照图3,上述系统中各个设备间的信令流传输为:ETL工具抽取用户互联网数据到各个集群服务器;CKM发起任务;任务服务器接收CKM发送的任务并回应,任务服务器将任务文件发送到各个集群服务器;各个集群服务器执行任务文件中的任务并将结果文件发送到汇总服务器;汇总服务器汇总结果文件,得到目标客户群数据信息并上传到文件服务器;CKM获取文件服务器上的目标客户群数据信息;
需要说明的是,集群服务器可以由若干个服务器集合而成,它们联接在一起,在逻辑上属于同一系统;业务上它们需要处理各自的数据,也需要彼此之间的交换和处理;当扩充某个集群服务器中的节点或集群服务器时,对整个系统架构影响较小。
基于图2所示的系统,本发明实施例提供了一种获取目标客户群的方法,如图4所示,该方法包括以下步骤:
S101、在用户互联网数据库中,ETL工具按照预先设置的抽取规则,进行数据抽取。
进一步地,为了不影响系统正常运行,该步骤S101优选为:在用户互联网数据库中,ETL工具按照预先设置的抽取规则,在系统闲置时间定时进行数据抽取;例如,在晚上12:00至第二天早上6:00之间进行数据抽取。
S102、根据集群服务器的数量将等额的用户互联网数据发送到每个集群服务器中。
需要说明的是,上述步骤S101到S102为预处理过程,CKM发起任务与上述预处理过程没有顺序关系,也就是说,在上述预处理过程中,CKM就可发起任务。另外,对于上述集群服务器的数量,在本发明中实施例中不做限定,根据实际情况可自行设置;此处所说的等额的用户互联网数据是指用户互联网数据量在一定误差范围内的相等。
S103、任务服务器接收CKM发起的获取目标客户群的初始任务;并向CKM发送接收到该初始任务的回复消息。
示例性的,以CKM系统发起获取″某省内最近7天浏览过刘德华及演唱会相关网页3次以上的客户群″的初始任务为例进行说明,该任务中的特征量可以为″刘德华″、″演唱会″、″某省包含的所有地市″、″日期″;且该任务中的关键字可以为″刘德华″、″演唱会″。
S104、任务服务器将该初始任务进行分解,得到多个子任务。
示例性的,该初始任务按上述的特征量可以分解的子任务数量可以这样计算,假设某省有17个地市,搜索日期为2012年5月1日至2012年5月7日,那么该初始任务可被分解为2(两个关键字)*7(7天)*17(该省的地市数)*2(两种搜索方式,一种为通过浏览网页,一种为通过搜索引擎输入关键字)=476个子任务。
S105、任务服务器根据集群服务器的数量将所有子任务平均分成多份,并将每一份写入对应的文件中,形成对应于每个集群服务器的任务文件。
需要说明的是,假设集群服务器数量为10个,上述476个子任务不能被平均的分成整数,因此,上述的将所有子任务平均分成多份,此处的平均是一个相对的平均,在实际操作过程中,在平均分配过程中可设置一定的误差,以使得做到相对的平均分配,这样尽量增强系统的均衡能力。
另外,平均分配后的每一份中的所有子任务需写入对应的文件中,且写入文件的格式可以包含上述的特征量,示例性的,子任务的格式可以为:
关键字......page/地市码/日期,或,关键字......key/地市码/日期。
如:刘德华......page/371/20120501;
演唱会......page/371/20120501;
刘德华......key/371/20120501;
演唱会......key/371/20120501。
其中,page表示浏览网页的方式,其对应于网页内容根据关键字词典库建立的索引;key表示通过搜索引擎输入关键字搜索的方式,其对应于通过搜索引擎输入的关键字,根据关键字词典库建立的索引;371代表其中的一个地市码;20120501为日期。
S106、任务服务器将S105中的任务文件发送给对应的每个集群服务器。
S107、每个集群服务器接收任务服务器发送的对应于各自集群服务器的任务文件。
通过上述S101-S102,每个集群服务器能够获取等额的用户互联网数据,通过上述S103-S107,每个集群服务器能够获取一个任务文件。
S108、每个集群服务器针对接收到的等额的用户互联网数据(S102已描述),执行对应的任务文件,生成结果文件,并将结果文件上传至汇总服务器。
其中,所述结果文件中包含有符合所述任务文件中子任务的用户互联网数据。
优选的,上述集群服务器可以包括:主结点服务器和子结点服务器,此时,上述S107-S108中该集群服务器的具体执行过程可以如下所述:
每个集群服务器中的主结点服务器接收任务服务器发送的对应于各自集群服务器的任务文件;
此时需要说明的是,参考图5,上述步骤S102中,ETL工具根据集群服务器的数量将等额发送用户互联网数据到每个集群服务器的子结点服务器中;集群服务器中的子结点服务器将用户互联网数据根据″关键字词典库″建立关键字索引库。
示例的,子结点服务器分别按照″刘德华″、″演唱会″这两个关键字将接收的用户互联网数据建立两个关键字索引库。在关键字为″刘德华″的索引库中可以按照搜索方式(网页搜索或通过搜索引擎输入关键字搜索)建立索引文件,例如其中一个索引文件可以存放关键字为″刘德华″、搜索方式为网页搜索的用户互联网数据;另一个索引文件可以存放关键字为″刘德华″、搜索方式为通过搜索引擎输入关键字搜索的用户互联网数据。在关键字为″演唱会″的索引库中可以按照搜索方式建立索引文件,例如其中一个索引文件可以存放关键字为″演唱会″、搜索方式为网页搜索的用户互联网数据;另一个索引文件可以存放键字″演唱会″、搜索方式为通过搜索引擎输入关键字搜索的用户互联网数据。
当某个集群服务器的主结点服务器接收到对应于该集群服务器的任务文件后,将该任务文件中的各个子任务分发给各个子结点服务器。
上述的各个子结点服务器在关键字索引库中,按照各个子结点服务器所接收到的子任务中的特征量搜索,生成结果文件,并将结果文件上传至汇总服务器。
示例性的,若其中一个子结点服务器所接收的所有子任务中既包含特征量为″刘德华″的子任务又包含特征量为″演唱会″的子任务,则该子结点服务器分别在上述所建立的两个关键字索引库中,执行相应的子任务,生成结果文件,并将结果文件上传至汇总服务器。
需要说明的是,本系统中所有集群服务器的执行过程优选的是同时进行的,根据每个集群服务器的任务量及用户互联网数据量,可增加某个集群服务器的子结点数,以提高整个系统的性能;另外,上述S101-S102与S103-S107的执行过程可以是同时进行的,每个集群服务器接收到子任务后,根据子任务中的特征量在已经建立的关键字索引库的索引文件中进行查询,但是对于某个日期内正在生成的索引文件,是不会被查询的。
S109、汇总服务器接收每个集群服务器发送的结果文件。
S110、汇总服务器按照结果文件的至少一个特征量,汇总所述结果文件中的数据信息,得到数据信息集合。
需要说明的是,结果文件的特征量与子任务的特征量一致。
示例性的,如图6所示,汇总服务器在接收到上述的结果文件后,按照该省的各个地市和关键字,汇总出该省的各个地市关键字″刘德华″被搜索的数据信息以及该省的各个地市关键字″演唱会″被搜索的数据信息,得到数据信息集合。具体的,数据信息集合中包含34项搜索结果,分别为:地市1、″刘德华″的搜索结果,地市1、″演唱会″的搜索结果,……,地市17、″刘德华″,地市17、演唱会″的搜索结果。
S111、汇总服务器按照获取目标客户群的规则,从数据信息集合中搜索得到目标客户群数据信息,并上传到文件服务器。
示例性的,根据接收到CKM发送的获取目标客户群的规则,即浏览过″刘德华″及″演唱会″相关网页3次以上的规则,在上述汇总出的数据信息集合中,得到目标客户群信息。
进一步地,汇总服务器还生成任务处理情况文件,并上传该任务处理情况文件到文件服务器;以使得CKM通过定时读取该任务处理情况文件,直到确认汇总服务器已处理完毕后,获取目标客户群数据信息。
本发明实施例提供的获取目标客户群的方法,任务服务器将初始任务进行更细的分解,使每个集群服务器处理的子任务数量相同,且每个集群服务器处理的用户互联网数据量也基本相同,以使系统负载均衡的能力得到了更大提高;在移动上网用户成倍增长时,只需通过扩展集群服务器的数量或单个集群服务器的子结点数量,来提升系统的处理能力,从而增强移动互联网行为分析系统的可扩展性。
需要说明的是,本实施例是以获取某省″刘德华演唱会目标客户群″的移动互联网行为分析为例进行说明,在实际应用过程中,本发明并不限于此,可以是任何与移动互联网行为分析有关活动。在本实施例中集群服务器的数量以及集群服务器中的主结点服务器、子结点服务器的数量并不受任何限制,根据实际需要自行配置。
下面,本发明实施例还提供了上述方法中所涉及到的设备,由于各个设备中的功能模块和上述方法中的步骤相对应,故在以下的实施例中对各个功能模块不加详述,具体可参见方法实施例。
如图7所示,本发明实施例提供了一种集群服务器70包括:
第一接收模块701,用于接收任务服务器发送的任务文件;该任务文件为任务服务器分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的。
第二接收模块702,用于接收ETL工具根据集群服务器的数量发送的等额用户互联网数据。
执行模块703,用于针对第二接受模块702接收到的用户互联网数据执行任务文件中的各个子任务,生成结果文件,并将结果文件上传至汇总服务器;以使得汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
另外,如图8所示,本发明实施例提供的集群服务器80,还可以是,具体包括:主结点服务器801和子结点服务器802;
其中,主结点服务器801包括:
第一接收模块8001,用于接收任务服务器发送的任务文件;该任务文件为任务服务器分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的。
第一分发模块8002,用于将任务文件中的各个子任务分发给各个子结点服务器。
子结点服务器802包括:
第二接收模块8003,用于接收ETL工具根据集群服务器的数量发送的等额用户互联网数据;并接收第一分发模块8002发送的各个子任务。
执行模块8004,用于针对第二接收模块8003接收到的用户互联网数据执行任务文件中的各个子任务,生成结果文件,并将结果文件上传至汇总服务器;以使得汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
进一步地,该子结点服务器还包括:
建立模块8005,将上述用户互联网数据根据″关键字词典库″建立关键字索引库;以使得上述执行模块8004只需在该关键字索引库中,按照各个子结点服务器所接收到的子任务中的特征量搜索,生成结果文件;并将结果文件上传至汇总服务器;以使得汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器;其中子任务中的特征量包含至少一个关键字。
本发明实施例提供的集群服务器,每个集群服务器处理的任务数量相同,且任务对应的数据量也基本相同,以使系统负载均衡的能力得到了更大提高;在移动上网用户成倍增长时,只需通过扩展集群服务器的数量或单个集群服务器的子结点数量,来提升系统的处理能力,从而增强移动互联网行为分析系统的可扩展性。
如图9所述,本发明实施例提供的任务服务器90,包括:
接收模块901,用于接收CKM发起的初始任务。
处理模块902,用于分解初始任务,得到多个子任务;并根据集群服务器的数量将分解后的所有子任务平均分成多份,并将每一份写入对应的文件中,形成对应于各自集群服务器的任务文件。
发送模块903,用于将该任务文件发送给对应的每个集群服务器;以使得每个集群服务器针对其接收到的用户互联网数据执行任务文件中的各个子任务,生成相应的结果文件,并上传到汇总服务器,以便汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器;其中,用户互联网数据为ETL工具根据集群服务器的数量分配的等额用户互联网数据。
本发明实施例提供的任务服务器,将初始任务分解为多个子任务,并根据集群服务器的数量,将所有子任务进行平均分配,在需要处理的用户互联网数据量也基本相同时,使系统负载均衡的能力得到了更大提高。
如图10所述,本发明实施例提供的汇总服务器100,包括:
接收模块1001,用于接收每个集群服务器发送的结果文件;该结果文件为每个集群服务器接收到任务服务器发送的对应于各自集群服务器的任务文件,针对其接收到的用户互联网数据,执行任务文件中的各个子任务后生成的;其中,用户互联网数据为ETL工具根据集群服务器的数量分配的等额用户互联网数据;任务文件为任务服务器分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将分解的所有子任务平均分成多份,并将每一份写入对应的文件得到的。
处理模块1002,用于按照上述结果文件的至少一个特征量,汇总该结果文件中的数据信息,得到数据信息集合。
发送模块1003,用于按照获取目标客户群的规则,从这些数据信息集合中搜索得到目标客户群数据信息,并上传目标客户群数据信息到文件服务器。
进一步地,处理模块1002,还用于生成任务处理情况文件。
发送模块1003、还用于将处理模块1002生成的任务处理情况文件上传所述文件服务器;以使CKM通过读取任务处理情况文件,直到确认该汇总服务器100处理完毕后,获取所述目标客户群信息结果文件。
本发明实施例提供的汇总服务器,较现有技术而言,避免了每个集群服务器保存全部的用户互联网数据,使得针对用户互联网数据执行的任务量减小,提升了系统的处理能力。
如图11所述,本发明实施例提供的ETL工具110,包括:
处理模块1101,在用户互联网数据库中,ETL工具按照预先设置的抽取规则,进行数据抽取。
发送模块1102,用于根据集群服务器的数量将等额的用户互联网数据发送到每个集群服务器中;以使得每个集群服务器在接收到任务服务器发送的任务文件后,针对各自集群服务器中的用户互联网数据,执行任务文件中的各个子任务,生成结果文件,并将结果文件上传至汇总服务器,以便汇总服务器生成目标客户群信息,并上传到文件服务器;其中,任务文件为任务服务器分解CKM发起的初始任务后,得到多个子任务后,根据集群服务器的数量将分解后的所有子任务平均分成多份,并将每一份写入对应的文件后得到的。
ETL工具可以是:Informatica、Datastage、OWB、微软DTS。
本发明实施例提供的ETL工具,根据集群服务器的数量将等额的用户互联网数据发送到每个集群服务器中,在集群服务器接收到的子任务量也基本相同时,使系统负载均衡的能力得到了更大提高。
需要说明的是,上述的集群服务器在实际应用中可以为hadoop集群服务器。其中,hadoop集群服务器为一个分布式系统基础架构,hadoop集群服务器具有高速运算和存储的能力,能够提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序;同时,该hadoop集群服务器可扩展性比较强。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种获取目标客户群的方法,其特征在于,包括:
集群服务器接收任务服务器发送的任务文件;所述任务文件为所述任务服务器根据特征量分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的;
接收数据提取、转换和加载ETL工具根据所述集群服务器的数量发送的等额用户互联网数据;
针对所述用户互联网数据执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器;以使得所述汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
2.根据权利要求1所述的方法,其特征在于,所述集群服务器包括:主结点服务器和子结点服务器;
所述接收任务服务器发送的任务文件包括:所述集群服务器中的主结点服务器接收所述任务服务器发送的任务文件;
所述接收ETL工具根据所述集群服务器的数量发送的等额用户互联网数据包括:所述集群服务器中的子结点服务器接收ETL工具根据所述集群服务器的数量等额发送的用户互联网数据;所述方法还包括:
所述主结点服务器将所述任务文件中的各个子任务分发给各个所述子结点服务器;
所述针对所述用户互联网数据执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器包括:所述集群服务器中的各个所述子结点服务器针对所述用户互联网数据执行各个所述子结点服务器接收到的子任务,生成结果文件,并将所述结果文件上传至所述汇总服务器。
3.根据权利要求2所述的方法,其特征在于,在所述集群服务器中的子结点服务器接收ETL工具根据所述集群服务器的数量等额发送的用户互联网数据之后还包括:
所述集群服务器中的子结点服务器将所述用户互联网数据根据“关键字词典库”建立关键字索引库;
所述集群服务器中的各个所述子结点服务器针对所述用户互联网数据执行各个所述子结点服务器接收到的子任务,生成结果文件包括:
所述集群服务器中的各个所述子结点服务器在所述关键字索引库中,按照各个所述子结点服务器所接收到的子任务中的特征量搜索,生成结果文件;其中所述特征量中包含至少一个所述关键字。
4.一种获取目标客户群的方法,其特征在于,包括:
任务服务器接收CKM发起的初始任务;
根据特征量分解所述初始任务,得到多个子任务;
根据集群服务器的数量将所有子任务平均分成多份,并将每一份写入对应的文件中,形成对应于各自集群服务器的任务文件;
将所述任务文件发送给对应的每个集群服务器;以使得所述每个集群服务器针对其接收到的用户互联网数据执行所述任务文件中的各个子任务,生成相应的结果文件,并上传到汇总服务器,以便所述汇总服务器根据所述每个集群服务器上传的所述结果文件生成目标客户群数据信息,并上传到文件服务器;其中,所述用户互联网数据为ETL工具根据所述集群服务器的数量分配的等额用户互联网数据。
5.根据权利要求4所述的方法,其特征在于,所述分解所述初始任务,得到多个子任务包括:
根据所述初始任务中的特征量的任意组合,将所述初始任务分解为多个子任务。
6.一种获取目标客户群的方法,其特征在于,包括:
汇总服务器接收每个集群服务器发送的结果文件;所述结果文件为所述每个集群服务器接收到任务服务器发送的对应于各自集群服务器的任务文件,针对其接收到的用户互联网数据,执行所述任务文件中的各个子任务后生成的;其中,所述用户互联网数据为ETL工具根据集群服务器的数量分配的等额用户互联网数据;所述任务文件为所述任务服务器根据特征量分解CKM发起的初始任务,得到多个子任务后,根据所述集群服务器的数量将分解的所有子任务平均分成多份,并将每一份写入对应的文件得到的;
按照所述结果文件的至少一个特征量,汇总所述结果文件中的数据信息,得到数据信息集合;
按照获取的目标客户群的规则,从所述数据信息集合中搜索得到目标客户群数据信息,并上传所述目标客户群数据信息到文件服务器。
7.根据权利要求6所述的方法,其特征在于,所述按照获取目标客户群的规则,从所述数据信息集合中搜索得到目标客户群数据信息,并上传所述目标客户群数据信息到文件服务器后,还包括:
所述汇总服务器生成任务处理情况文件,并上传所述任务处理情况文件到所述文件服务器;以使得所述CKM通过所述任务处理情况文件确认所述汇总服务器处理完毕后,获取所述目标客户群信息。
8.一种获取目标客户群的方法,其特征在于,包括:
在用户互联网数据库中,数据提取、转换和加载ETL工具按照预先设置的抽取规则,进行数据抽取;
根据集群服务器的数量将等额的用户互联网数据发送到每个集群服务器中;以使得所述每个集群服务器在接收到任务服务器发送的任务文件后,针对各自集群服务器中的所述用户互联网数据,执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器,以便汇总服务器生成目标客户群信息,并上传到文件服务器;其中,所述任务文件为所述任务服务器根据特征量分解CKM发起的初始任务,得到多个子任务后,根据所述集群服务器的数量将所有子任务平均分成多份,并将每一份写入对应的文件后得到的。
9.根据权利要求8所述的方法,其特征在于,所述在用户互联网数据库中,ETL工具按照预先设置的抽取规则进行数据抽取,包括:
在用户互联网数据库中,ETL工具按照预先设置的抽取规则,在系统闲置时间定时进行数据抽取。
10.一种集群服务器,其特征在于,包括:
第一接收模块,用于接收任务服务器发送的任务文件;所述任务文件为所述任务服务器根据特征量分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的;
第二接收模块,用于接收数据提取、转换和加载ETL工具根据所述集群服务器的数量发送的等额用户互联网数据;
执行模块,用于针对所述第二接收模块接收到的所述用户互联网数据执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器;以使得所述汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
11.一种集群服务器,其特征在于,所述集群服务器包括:主结点服务器和子结点服务器;其中,所述主结点服务器包括:第一接收模块和第一分发模块;
所述第一接收模块,用于接收任务服务器发送的任务文件;所述任务文件为所述任务服务器根据特征量分解CKM发起的初始任务,得到多个子任务后,根据集群服务器的数量将所有子任务平均分成多份,并将其中一份写入文件得到的;
所述第一分发模块,用于将所述任务文件中的各个子任务分发给各个所述子结点服务器;
子结点服务器包括:第二接收模块和执行模块;
所述第二接收模块,用于接收ETL工具根据所述集群服务器的数量发送的等额用户互联网数据;并接收所述第一分发模块发送的所述各个子任务;
所述执行模块,用于针对第二接收模块接收到的所述用户互联网数据执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器;以使得所述汇总服务器根据每个集群服务器上传的结果文件生成目标客户群数据信息,并上传到文件服务器。
12.根据权利要求11所述的集群服务器,其特征在于,所述子结点服务器还包括:建立模块;
所述建立模块用于将所述用户互联网数据根据“关键字词典库”建立关键字索引库;
所述执行模块,用于在所述关键字索引库中,按照各个所述子结点服务器所接收到的子任务中的特征量搜索,生成结果文件;其中,所述子任务中的特征量包含至少一个所述关键字。
13.一种任务服务器,其特征在于,包括:
接收模块,用于接收CKM发起的初始任务;
处理模块,用于根据特征量分解所述初始任务,得到多个子任务;根据集群服务器的数量将分解后的所有子任务平均分成多份,并将每一份写入对应的文件中,形成对应于各自集群服务器的任务文件;
发送模块,用于将所述任务文件发送给对应的每个集群服务器;以使得所述每个集群服务器针对其接收到的用户互联网数据执行所述任务文件中的各个子任务,生成相应的结果文件,并上传到汇总服务器,以便所述汇总服务器根据所述每个集群服务器上传的所述结果文件生成目标客户群数据信息,并上传到文件服务器;其中,所述用户互联网数据为ETL工具根据所述集群服务器的数量分配的等额用户互联网数据。
14.一种汇总服务器,其特征在于,包括:
接收模块,用于接收每个集群服务器发送的结果文件;所述结果文件为所述每个集群服务器接收到任务服务器发送的对应于各自集群服务器的任务文件,针对其接收到的用户互联网数据,执行所述任务文件中的各个子任务后生成的;其中,所述用户互联网数据为ETL工具根据集群服务器的数量分配的等额用户互联网数据;所述任务文件为所述任务服务器根据特征量分解CKM发起的初始任务,得到多个子任务后,根据所述集群服务器的数量将分解的所有子任务平均分成多份,并将每一份写入对应的文件得到的;
处理模块,用于按照所述结果文件的至少一个特征量,汇总所述结果文件中的数据信息,得到数据信息集合;
发送模块,用于按照获取目标客户群的规则,从所述数据信息集合中搜索得到目标客户群数据信息,并上传所述目标客户群数据信息到文件服务器。
15.根据权利要求14所述的汇总服务器,其特征在于,
所述处理模块还用于生成任务处理情况文件;
所述发送模块还用于将所述处理模块生成的所述任务处理情况文件上传所述文件服务器;以使所述CKM通过读取所述任务处理情况文件,直到确认所述汇总服务器处理完毕后,获取所述目标客户群信息结果文件。
16.一种数据提取、转换和加载ETL工具,其特征在于,包括:
处理模块,在用户互联网数据库中,按照预先设置的抽取规则,进行数据抽取;
发送模块,用于根据集群服务器的数量将等额的用户互联网数据发送到每个集群服务器中;以使得所述每个集群服务器在接收到任务服务器发送的任务文件后,针对各自集群服务器中的用户互联网数据,执行所述任务文件中的各个子任务,生成结果文件,并将所述结果文件上传至汇总服务器,以便汇总服务器生成目标客户群信息,并上传到文件服务器;其中,所述任务文件为所述任务服务器根据特征量分解CKM发起的初始任务后,得到多个子任务后,根据所述集群服务器的数量将分解后的所有子任务平均分成多份,并将每一份写入对应的文件后得到的。
17.一种获取目标客户群的系统,包括:CKM;文件服务器;其特征在于,还包括:
权利要求10至12任一所述的集群服务器;
权利要求13所述的任务服务器;
权利要求14或15所述的汇总服务器;
权利要求16所述的ETL工具。
CN201210161736.8A 2012-05-23 2012-05-23 一种获取目标客户群的方法、设备及系统 Active CN102724290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210161736.8A CN102724290B (zh) 2012-05-23 2012-05-23 一种获取目标客户群的方法、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210161736.8A CN102724290B (zh) 2012-05-23 2012-05-23 一种获取目标客户群的方法、设备及系统

Publications (2)

Publication Number Publication Date
CN102724290A CN102724290A (zh) 2012-10-10
CN102724290B true CN102724290B (zh) 2015-01-28

Family

ID=46949951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210161736.8A Active CN102724290B (zh) 2012-05-23 2012-05-23 一种获取目标客户群的方法、设备及系统

Country Status (1)

Country Link
CN (1) CN102724290B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123327A (zh) * 2013-04-29 2014-10-29 鸿富锦精密工业(深圳)有限公司 文件服务器分压系统及方法
CN104639659A (zh) * 2015-03-12 2015-05-20 浪潮集团有限公司 一种基于服务器集群技术的数据抽取转换方法
CN104717294A (zh) * 2015-03-23 2015-06-17 浪潮集团有限公司 一种数据抽取方法、主服务器和集群
CN109669975B (zh) * 2018-11-09 2020-12-18 成都数之联科技有限公司 一种工业大数据处理系统及方法
CN109766328A (zh) * 2018-12-27 2019-05-17 北京奇艺世纪科技有限公司 数据库迁移方法、系统、数据处理设备、计算机介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105795A (zh) * 2006-10-27 2008-01-16 北京搜神网络技术有限责任公司 基于网络行为的个性化推荐方法和系统
CN101192227A (zh) * 2006-11-30 2008-06-04 阿里巴巴公司 一种基于分布式计算网络的日志文件分析方法和系统
CN102200979A (zh) * 2010-03-26 2011-09-28 上海市浦东科技信息中心 一种分布式并行信息检索系统及其方法
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105795A (zh) * 2006-10-27 2008-01-16 北京搜神网络技术有限责任公司 基于网络行为的个性化推荐方法和系统
CN101192227A (zh) * 2006-11-30 2008-06-04 阿里巴巴公司 一种基于分布式计算网络的日志文件分析方法和系统
CN102200979A (zh) * 2010-03-26 2011-09-28 上海市浦东科技信息中心 一种分布式并行信息检索系统及其方法
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置

Also Published As

Publication number Publication date
CN102724290A (zh) 2012-10-10

Similar Documents

Publication Publication Date Title
CN105138592B (zh) 一种基于分布式架构的日志数据存储和检索方法
Das et al. Big data analytics: A framework for unstructured data analysis
CN107515878B (zh) 一种数据索引的管理方法及装置
US11394794B2 (en) Fast ingestion of records in a database using data locality and queuing
CN102375837B (zh) 数据采集系统和方法
US9268716B2 (en) Writing data from hadoop to off grid storage
CN102724290B (zh) 一种获取目标客户群的方法、设备及系统
CN107391502B (zh) 时间间隔的数据查询方法、装置及索引构建方法、装置
CN103838867A (zh) 日志处理方法和装置
CN102193917A (zh) 一种数据处理和查询方法和装置
CN102917009B (zh) 一种基于云计算技术的股票数据采集和存储方法和系统
MX2014002956A (es) Mercado digial para la distribucion a tiempo de datos de evento.
CN111258978A (zh) 一种数据存储的方法
CN102193929A (zh) 确定词信息熵及利用词信息熵的搜索方法及其设备
CN104092770A (zh) 基于云计算的企业内部通讯录管理方法和系统
CN103209087A (zh) 分布式日志统计处理方法和系统
CN103138981A (zh) 一种社交网络分析方法和装置
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据系统
CN106055678A (zh) 一种基于hadoop的全景大数据分布式存储方法
CN111126852A (zh) 一种基于大数据建模的bi应用系统
CN113282611A (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN103200269A (zh) 互联网信息统计方法及系统
KR101332270B1 (ko) 유전 정보 관리 장치 및 방법
CN102103606A (zh) 一种在手机客户端上实现高级检索商品的技术
Aktaş et al. Download time analysis for distributed storage codes with locality and availability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant