CN112001454B - 一种集客专线的聚类方法和装置 - Google Patents

一种集客专线的聚类方法和装置 Download PDF

Info

Publication number
CN112001454B
CN112001454B CN202010934091.1A CN202010934091A CN112001454B CN 112001454 B CN112001454 B CN 112001454B CN 202010934091 A CN202010934091 A CN 202010934091A CN 112001454 B CN112001454 B CN 112001454B
Authority
CN
China
Prior art keywords
target
collecting
clustering
line
longitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010934091.1A
Other languages
English (en)
Other versions
CN112001454A (zh
Inventor
班瑞
马季春
邹雨佳
陈泉霖
郝宇飞
王鹏
王佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
China Information Technology Designing and Consulting Institute Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
China Information Technology Designing and Consulting Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, China Information Technology Designing and Consulting Institute Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202010934091.1A priority Critical patent/CN112001454B/zh
Publication of CN112001454A publication Critical patent/CN112001454A/zh
Application granted granted Critical
Publication of CN112001454B publication Critical patent/CN112001454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Abstract

本申请提供一种集客专线的聚类方法和装置,涉及通信技术领域,解决了集客专线聚类效率较低的问题。该方法包括:获取至少一个集客专线的特征;根据IP地址和经纬度对至少一个集客专线进行初步聚类,得到初步聚类结果;确定目标特征和目标特征的数量;目标特征为目标集客专线的特征;根据目标特征的数量以及第一预设规则计算目标数量;根据目标特征、目标数量、以及第二预设规则,将目标集客专线进行二次聚类,得到目标聚类结果。本申请的实施例应用于对同一集团类型的专线进行聚类。

Description

一种集客专线的聚类方法和装置
技术领域
本申请的实施例涉及通信技术领域,尤其涉及一种集客专线的聚类方法和装置。
背景技术
集团客户专线网络(又称集客专线)在各大通信运营商中占据着十分重要的地位。对同一集团客户类型的集客专线进行聚类,能够将不同集团类型对应的集客专线的网络协议(internet protocol,IP)地址区分开来,以便于运营商为集团客户提供更全面、更精准的服务,提升用户忠诚度。
目前,针对集客专线的聚类,主要通过人工方式进行,即相关的管理人员人工记录集团客户和集客专线的关系,进行聚类。这种聚类方式需要靠相关管理人员去调查记录,因此聚类效率较低。
发明内容
本申请提供一种集客专线的聚类方法和装置,解决了集客专线聚类效率较低的问题。
第一方面,本申请提供一种集客专线的聚类方法,应用于集客专线的聚类装置,该方法包括:集客专线的聚类装置获取多个集客专线的特征,并根据IP地址和经纬度对多个集客专线进行初步聚类,得到初步聚类结果。之后,集客专线的聚类装置确定目标特征和目标特征的数量,并根据目标特征的数量以及第一预设规则计算目标数量。最后,集客专线的聚类装置根据目标特征、目标数量、以及第二预设规则,将目标集客专线进行二次聚类,得到目标聚类结果。
其中,特征包括IP地址和经纬度;初步聚类结果包括经纬度范围和至少一个集客专线的对应关系;目标集客专线为目标经纬度范围对应的集客专线;目标经纬度范围为初步聚类结果中任一经纬度范围;目标数量为目标集客专线所属的集团类型的数量;目标聚类结果包括每个集团类型和目标集客专线的对应关系。
上述方案中,集客专线的聚类装置能够获取集客专线的特征,并根据IP地址和经纬度对集客专线进行初步聚类,之后,根据初步聚类结果,再对经纬度范围内的目标集客专线进行二次聚类,得到目标聚类结果。能够实现对集客专线的自动化聚类,避免了相关管理人员调查记录的过程,提高了聚类效率。
第二方面,本申请提供一种集客专线的聚类装置,包括:
获取模块,用于获取至少一个集客专线的特征。处理模块,用于根据获取模块获取到的IP地址和经纬度对至少一个集客专线进行初步聚类,得到初步聚类结果。确定模块,用于确定目标特征和目标特征的数量;目标特征为目标集客专线的特征。处理模块,还用于根据确定模块确定出的目标特征的数量以及第一预设规则计算目标数量。处理模块,还用于根据目标特征、目标数量、以及第二预设规则,将目标集客专线进行二次聚类,得到目标聚类结果。
其中,特征包括IP地址和经纬度;初步聚类结果包括经纬度范围和至少一个集客专线的对应关系;目标集客专线为目标经纬度范围对应的集客专线;目标经纬度范围为初步聚类结果中任一经纬度范围;目标数量为目标集客专线所属的集团类型的数量;目标聚类结果包括每个集团类型和目标集客专线的对应关系。
第三方面,本申请提供一种集客专线的聚类装置,包括处理器,当集客专线的聚类装置运行时,处理器执行计算机执行指令,以使集客专线的聚类装置执行如上述的集客专线的聚类方法。
第四方面,本申请提供一种计算机可读存储介质,包括指令,当指令在计算机上运行时,使得计算机执行如上述的集客专线的聚类方法。
第五方面,本申请提供一种计算机程序产品,计算机程序产品包括指令代码,指令代码用于执行如上述的集客专线的聚类方法。
可以理解地,上述提供的任一种集客专线的聚类装置、计算机可读存储介质或计算机程序产品均用于执行上文所提供的方法,因此,其所能达到的有益效果可参考上文的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的实施例提供的一种集客专线的聚类装置的硬件结构示意图;
图2为本申请的实施例提供的一种集客专线的聚类方法的流程示意图;
图3为本申请的实施例提供的一种目标城市的地理场景示意图;
图4为本申请的实施例提供的一种集客专线的聚类装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
集客专线是指通信运营商利用自有通信资源,或利用租用资源,为集团客户在其机构网点之间提供点对点、多点间的专用链路,或公共互联网应用和各种行业应用。根据不同情况,采用传输控制协议(transmission control protocol,TCP)/IP、7号信令等网络协议,具有为用户量身定制、保密性好、稳定且灵活的特点。
集客专线在各大通信运营商中占据着十分重要的地位。对同一集团客户类型的集客专线进行聚类,能够将不同集团类型对应的集客专线的IP地址区分开来,以便于运营商为集团客户提供更全面、更精准的服务,提升用户忠诚度。目前,针对集客专线的聚类,主要通过人工方式进行,即相关的管理人员人工记录集团客户和集客专线的关系,进行聚类。这种聚类方式需要靠相关管理人员去调查记录,因此聚类效率较低。
针对上述问题,本申请提供了一种集客专线的聚类方法和装置,该聚类方法包括:集客专线的聚类装置获取集客专线的特征,并根据IP地址和经纬度对集客专线进行初步聚类,之后,再根据初步聚类结果,对目标经纬度范围内的目标集客专线进行二次聚类,得到目标聚类结果。能够实现对集客专线的自动化聚类,避免了相关管理人员调查记录的过程,提高了聚类效率。
在具体实现时,集客专线的聚类装置具有如图1所示的部件。图1为本申请实施例提供的一种集客专线的聚类装置,可以包括至少一个处理器102,处理器102用于执行应用程序代码,从而实现本申请中的集客专线的聚类方法。
处理器102可以是一个中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
如图1所示,集客专线的聚类装置还可以包括存储器103。其中,存储器103用于存储执行本申请方案的应用程序代码,并由处理器102来控制执行。
存储器103可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器103可以是独立存在,通过总线104与处理器102相连接。存储器103也可以和处理器102集成在一起。
如图1所示,集客专线的聚类装置还可以包括通信接口101,其中,通信接口101、处理器102、存储器103可以相互耦合,例如通过总线104相互耦合。通信接口101用于与其他设备进行信息交互,例如支持集客专线的聚类装置与其他设备的信息交互。
需要指出的是,图1中示出的设备结构并不构成对该集客专线的聚类装置的限定,除图1所示部件之外,该集客专线的聚类装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1所示的集客专线的聚类装置,通过图2-图3对本申请实施例提供的集客专线的聚类方法进行描述。
图2为本申请实施例提供的一种集客专线的聚类方法的流程示意图。参见图2所示,该集客专线的聚类方法包括如下步骤。
201、集客专线的聚类装置获取至少一个集客专线的特征。
其中,特征包括网络协议IP地址和经纬度。具体的,集客专线的经纬度为统一资源标识符(uniform resource identifier,URI)中出现的经纬度的平均值。
具体的,集客专线的聚类装置获取至少一个集客专线的超文本传输协议(hypertext transfer protocol,HTTP)话单,并对每个HTTP话单进行特征提取,得到至少一个集客专线的特征。
可选的,集客专线的特征还包括工作日每小时流量大小、周末每小时流量大小、工作日流量大小、周末流量大小、整周流量大小、工作日每小时流量大小占工作日流量大小的百分比、周末每小时流量大小占周末流量大小的百分比、工作日9时-12时和13时-19时的流量大小占工作日流量大小的百分比、工作日19时-23时流量大小占工作日流量大小的百分比、以每小时为单位流量的波动值、工作时间与非工作时间流量波动值、工作日流量大小占整周流量大小的百分比、周末流量大小占整周流量大小的百分比、各个应用大类使用量占总应用量的百分比、上行和下行流量大小、上行和下行持续时间、上行和下行平均速率、上行速率与下行速率的比值、上行和下行包数、上行和行重传包数、上行和下行重传率、TCP建链响应总时延、TCP建链响应总次数、TCP建链响应平均时延、第一条事务请求到其第一个响应包总时延、第一条事务请求到其第一个响应包总次数、第一条事务请求到其第一个响应包平均时延、TCP建链确认总时延、TCP建链确认总次数、TCP建链确认平均时延、第一个HTTP响应包相对于第一个HTTP请求包的总时延、第一个HTTP响应包相对于第一个HTTP请求包的总次数、第一个HTTP响应包相对于第一个HTTP请求包的平均时延、各种消息事务类型话单数、所有消息事务类型话单数、各种消息事务类型话单数占总话单数的百分比、各种消息事务类型流量占比、常用url后缀话单占总话单数的百分比(如.com.cn、.com、.cn、.gov、.edu、.org、other等后缀)、常用url后缀流量占比(如.com.cn、.com、.cn、.gov、.edu、.org、other等后缀)、以一周为单位终端类型占比、以周为单位移动端与桌面端流量占比、每日终端类型占比(如,个人计算机(personal computer,PC)端占比、移动端占比等)、以天为单位移动端占比的波动率(利用方差计算)、各类http内容话单占比(如application、text、audio、video、image、message、drawing、java、other等)、各类http内容流量占比(如application、text、audio、video、image、message、drawing、java、other等)、TCP连接成功次数、TCP连接失败次数、TCP连接成功率、TCP连接失败率、不是重要关注业务话单数量、是重要关注业务话单数量、重要关注业务率、不是高危网站话单数量、是高危网站话单数量、不是是高危网站率、是高危网站率、经纬度1(指从现场中提取美团、饿了么、每日生鲜、宅急送等外卖订单的收货地址,将出现最多的地理标签,如住宅、中央商务区(centralbusiness district,CBD)、学校等,作为IP的地理位置标签)、经纬度、经度、纬度、IP地址第一段数字、IP地址第二段数字、IP地址第三段数字、IP地址第四段数字等。
其中,以每小时为单位流量的波动值满足公式
Figure BDA0002671305070000071
其中,η表示第i小时流量的波动值,xi表示第i小时的平均流量,/>
Figure BDA0002671305070000072
表示第i小时所在的当天,24小时的流量的均值。
工作时间与非工作时间流量波动值满足公式
Figure BDA0002671305070000073
其中,η表示工作时间与非工作时间流量波动值,x1表示工作时间的流量值(如9时-19时),x2表示非工作时间的流量值(如19时-9时)。
可选的,在获取到至少一个集客专线的特征之后,集客专线的聚类装置对特征进行去噪处理,得到有意义的特征。具体的,首先,针对所有集客专线,集客专线的聚类装置若确定某个特征的方差为0,则删除该特征。然后,针对每个集客专线,集客专线的聚类装置计算每两个特征之间的互信息量,当确定两个特征之间的信息量为0时,则删除该两个特征。
进一步的,集客专线的聚类装置在获取到至少一个集客专线的特征之后,对特征进行标准化处理,得到标准化特征。具体的,集客专线的聚类装置将特征先按均值中心化,再按标准差缩放,得到服从均值为0,方差为1正太分布的标准化特征。进一步具体的,标准化特征满足公式
Figure BDA0002671305070000074
其中,μ表示特征的均值,σ表示特征的标准差,x表示原特征,x*表示标准化特征。
202、集客专线的聚类装置根据IP地址和经纬度对至少一个集客专线进行初步聚类,得到初步聚类结果。
其中,初步聚类结果包括经纬度范围和至少一个集客专线的对应关系。经纬度范围包括经度范围和纬度范围。
具体的,集客专线的聚类装置将IP地址对应的城市确定为目标城市。之后,集客专线的聚类装置以第一阈值为经度间隔,第二阈值为纬度间隔,对目标城市进行栅格化处理,得到每个栅格的经纬度范围和每个栅格对应的集客专线的关系。例如,参照图3所示,本申请提供目标城市的地理场景示意图。该地理场景包括目标城市302和集客专线301。其中,目标城市302对应的经度范围为(a1,a4),纬度范围为(b1,b4),目标城市302中包括33条集客专线301。以第一阈值为经度间隔,第二阈值为纬度间隔,对目标城市进行栅格化处理,可以得到:经度范围为(a1,a2),维度范围为(b1,b2)的经纬度范围内,包括2条集客专线;经度范围为(a1,a2),维度范围为(b2,b3)的经纬度范围内,包括5条集客专线;经度范围为(a1,a2),维度范围为(b3,b4)的经纬度范围内,包括3条集客专线;经度范围为(a2,a3),维度范围为(b1,b2)的经纬度范围内,包括2条集客专线;经度范围为(a2,a3),维度范围为(b2,b3)的经纬度范围内,包括7条集客专线;经度范围为(a2,a3),维度范围为(b3,b4)的经纬度范围内,包括4条集客专线;经度范围为(a3,a4),维度范围为(b1,b2)的经纬度范围内,包括3条集客专线;经度范围为(a3,a4),维度范围为(b2,b3)的经纬度范围内,包括5条集客专线;经度范围为(a3,a4),维度范围为(b3,b4)的经纬度范围内,包括2条集客专线。
203、集客专线的聚类装置确定目标特征和目标特征的数量。
其中,目标特征为目标集客专线的特征。目标集客专线为目标经纬度范围对应的集客专线。目标经纬度范围为初步聚类结果中任一经纬度范围。
具体的,在步骤202中,对至少一个集客专线进行初步聚类后,在得到经纬度范围和至少一个集客专线的对应关系的同时,也能够得到经纬度范围和至少一个集客专线的特征的关系。之后,将目标城市中任一经纬度范围内的专线确定为目标专线,目标专线对应的特征确定为目标特征,获取目标特征的数量。
204、集客专线的聚类装置根据目标特征的数量以及第一预设规则计算目标数量。
其中,目标数量为目标集客专线所属的集团类型的数量。
可选的,第一预设规则为贝叶斯信息准则(bayesian information criterion,BIC)。具体的,预设目标数量范围,例如,目标数量范围预设为10-50,根据公式BIC=-2log(L)+klog(n)确定目标数量,其中,L表示所有目标特征的后验概率之和,k表示目标数量,n表示特征数量。这样,当BIC最大时,k值最佳,取为目标数量。
其中,目标特征的后验概率满足公式
Figure BDA0002671305070000091
其中,xn表示第n个目标特征,γ(znk)表示第n个目标特征属于第k个集团类型的后验概率,πk为第k个集团类型的先验概率,μk第k个集团类型的均值,σk为第k个集团类型的标准差。πj为第j个集团类型的先验概率,μj第j个集团类型的均值,σj为第j个集团类型的标准差,K表示预设目标数量范围的最大值。
205、集客专线的聚类装置根据目标特征、目标数量、以及第二预设规则,将目标集客专线进行二次聚类,得到目标聚类结果。
其中,目标聚类结果包括每个集团类型和目标集客专线的对应关系。
可选的,第二预设规则为期望最大化算法(expectation maximizationalgorithm,EM)。
具体的,对于K个(目标数量)集团类型中的每个集团类型,集客专线的聚类装置首先计算出每个集团类型的先验概率、均值、以及标准差。然后,根据每个集团类型的先验概率、均值、以及标准差建立高斯混合模型(gaussian mixed model,GMM),其中,高斯混合模型中包括K个单高斯模型(即K个集团类型)。最后,根据高斯混合模型分布目标特征。具体的,将高斯混合模型的概率密度函数取最大值时,目标特征在每个单高斯模型的分布情况确定为目标聚类结果。其中,高斯混合模型的概率密度函数满足公式
Figure BDA0002671305070000092
P(x)表示高斯混合模型的概率密度函数值,K表示集团类型数量,即单高斯模型数量,πk表示第k个集团类型的先验概率,μk表示第k个集团类型的均值,σk表示第k个集团类型的标准差。
进一步具体的,集客专线的聚类装置计算每个集团类型的先验概率、均值、以及标准差,包括:对于第k个集团类型而言,集客专线的聚类装置首先初始化第k个集团类型的先验概率、均值、以及标准差。然后,计算目标特征属于第k个集团类型的后验概率。之后,再根据后验概率更新第k个集团类型的先验概率、均值、以及标准差。直到第k个集团类型的先验概率、均值、以及标准差收敛,得到第k个集团类型的先验概率、均值、以及标准差收敛。
其中,当变化率小于10-7时,确定收敛。目标特征属于第k个集团类型的后验概率满足公式
Figure BDA0002671305070000101
其中,γ(znk)表示第n个目标特征属于第k个集团类型的后验概率,πk为第k个集团类型的先验概率,μk第k个集团类型的均值,σk为第k个集团类型的标准差。πj为第j个集团类型的先验概率,μj第j个集团类型的均值,σj为第j个集团类型的标准差,K表示预设目标数量范围的最大值。
第k个集团类型的先验概率满足公式
Figure BDA0002671305070000102
第k个集团类型的均值满足公式/>
Figure BDA0002671305070000103
第k个集团类型的标准差满足公式/>
Figure BDA0002671305070000104
其中,/>
Figure BDA0002671305070000105
表示更新后第k个集团类型的先验概率,/>
Figure BDA0002671305070000106
表示更新后第k个集团类型的均值,/>
Figure BDA0002671305070000107
表示更新后第k个集团类型的标准差,N表示目标特征的数量,γ(znk)表示目标特征属于第k个集团类型的后验概率,Xn表示目标特征。
上述方案中,集客专线的聚类装置能够获取集客专线的特征,并根据IP地址和经纬度对集客专线进行初步聚类,之后,根据初步聚类结果,再对经纬度范围内的目标集客专线进行二次聚类,得到目标聚类结果。能够实现对集客专线的自动化聚类,避免了相关管理人员调查记录的过程,提高了聚类效率。
本申请实施例可以根据上述的方法实施例对集客专线的聚类装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图4示出该集客专线的聚类装置的一种可能的结构示意图。如图4所示,集客专线的聚类装置包括获取模块41、处理模块42、以及确定模块43。
获取模块41,用于获取至少一个集客专线的特征,其中,特征包括IP地址和经纬度。例如,参照图2所示,获取模块41用于执行步骤201。处理模块42,用于根据获取模块41获取到的IP地址和经纬度对至少一个集客专线进行初步聚类,得到初步聚类结果。初步聚类结果包括经纬度范围和至少一个集客专线的对应关系。例如,参照图2所示,处理模块42用于执行步骤202。确定模块43,用于确定目标特征和目标特征的数量。目标特征为目标集客专线的特征。目标集客专线为目标经纬度范围对应的集客专线。目标经纬度范围为初步聚类结果中任一经纬度范围。例如,参照图2所示,确定模块43用于执行步骤203。处理模块42,还用于根据确定模块43确定出的目标特征的数量以及第一预设规则计算目标数量。目标数量为目标集客专线所属的集团类型的数量。例如,参照图2所示,处理模块42还用于执行步骤204。处理模块42,还用于根据目标特征、目标数量、以及第二预设规则,将目标集客专线进行二次聚类,得到目标聚类结果。目标聚类结果包括每个集团类型和目标集客专线的对应关系。例如,参照图2所示,处理模块42还用于执行步骤205。
可选的,获取模块41,具体用于:获取至少一个集客专线的超文本传输协议HTTP话单。对每个HTTP话单进行特征提取,得到至少一个集客专线的特征。
可选的,处理模块42,具体用于:将IP地址对应的城市确定为目标城市。以第一阈值为经度间隔,第二阈值为纬度间隔,对目标城市进行栅格化处理,得到每个栅格的经纬度范围和每个栅格对应的集客专线的关系。
可选的,第一预设规则为贝叶斯信息准则BIC。
可选的,第二预设规则为期望最大化算法EM。
本申请另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在集客专线的聚类装置上运行时,该集客专线的聚类装置,执行如图2所示的实施例的集客专线的聚类方法中的步骤。
在本申请的另一实施例中,还提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中;集客专线的聚类装置的处理器可以从计算机可读存储介质读取该计算机执行指令,处理器执行该计算机执行指令使得集客专线的聚类装置,执行如图2所示的实施例的集客专线的聚类方法中的步骤。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块、单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:read-only memory,英文简称:ROM)、随机存取存储器(英文全称:random access memory,英文简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种集客专线的聚类方法,其特征在于,包括:
获取至少一个集客专线的特征,其中,所述特征包括网络协议IP地址和经纬度;
根据所述IP地址和所述经纬度对所述至少一个集客专线进行初步聚类,得到初步聚类结果;所述初步聚类结果包括经纬度范围和所述至少一个集客专线的对应关系;
确定目标特征和所述目标特征的数量;所述目标特征为目标集客专线的特征;所述目标集客专线为目标经纬度范围对应的集客专线;所述目标经纬度范围为所述初步聚类结果中任一经纬度范围;
根据所述目标特征的数量以及贝叶斯信息准则BIC计算目标数量;所述目标数量为所述目标集客专线所属的集团类型的数量;所述目标数量满足以下公式:
BIC=-2log(L)+klog(n)
其中,所述L表示各个目标特征的后验概率之和;当所述BIC为最大值时,所述k为所述目标数量;所述n表示所述目标特征的数量;
获取k个集团类型中每个集团类型的先验概率、均值、以及标准差;
根据所述每个集团类型的先验概率、均值、以及标准差确定构建高斯混合模型GMM,所述GMM包括:k个单高斯模型;
在高斯混合模型的概率密度函数为最大概率密度函数的情况下,根据所述目标特征在各个单高斯模型对应范围内的分布,确定目标聚类结果;所述目标聚类结果包括每个集团类型和所述目标集客专线的对应关系。
2.根据权利要求1所述的聚类方法,其特征在于,所述获取至少一个集客专线的特征,包括:
获取至少一个集客专线的超文本传输协议HTTP话单;
对每个HTTP话单进行特征提取,得到所述至少一个集客专线的特征。
3.根据权利要求1所述的聚类方法,其特征在于,所述根据所述IP地址和所述经纬度对所述至少一个集客专线进行初步聚类,得到初步聚类结果,包括:
将所述IP地址对应的城市确定为目标城市;
以第一阈值为经度间隔,第二阈值为纬度间隔,对所述目标城市进行栅格化处理,得到每个栅格的经纬度范围和每个栅格对应的集客专线的关系。
4.一种集客专线的聚类装置,其特征在于,包括:
获取模块,用于获取至少一个集客专线的特征,其中,所述特征包括网络协议IP地址和经纬度;
处理模块,用于根据所述获取模块获取到的所述IP地址和所述经纬度对所述至少一个集客专线进行初步聚类,得到初步聚类结果;所述初步聚类结果包括经纬度范围和所述至少一个集客专线的对应关系;
确定模块,用于确定目标特征和所述目标特征的数量;所述目标特征为目标集客专线的特征;所述目标集客专线为目标经纬度范围对应的集客专线;所述目标经纬度范围为所述初步聚类结果中任一经纬度范围;
所述处理模块,还用于根据所述确定模块确定出的所述目标特征的数量以及第一预设规则计算目标数量;所述目标数量为所述目标集客专线所属的集团类型的数量;所述目标数量满足以下公式:
BIC=-2log(L)+klog(n)
其中,所述BIC表示贝叶斯信息准则;所述L表示各个目标特征的后验概率之和;当所述BIC为最大值时,所述k为所述目标数量;所述n表示所述目标特征的数量;
所述获取模块,用于获取k个集团类型中每个集团类型的先验概率、均值、以及标准差;
所述处理模块,还用于根据所述每个集团类型的先验概率、均值、以及标准差确定构建高斯混合模型GMM,所述GMM包括:K个单高斯模型;
所述处理模块,还用于在高斯混合模型的概率密度函数为最大概率密度函数的情况下,根据所述目标特征在各个单高斯模型对应范围内的分布,确定目标聚类结果;所述目标聚类结果包括每个集团类型和所述目标集客专线的对应关系。
5.根据权利要求4所述的聚类装置,其特征在于,
所述获取模块,具体用于:
获取至少一个集客专线的超文本传输协议HTTP话单;
对每个HTTP话单进行特征提取,得到所述至少一个集客专线的特征。
6.根据权利要求4所述的聚类装置,其特征在于,
所述处理模块,具体用于:
将所述IP地址对应的城市确定为目标城市;
以第一阈值为经度间隔,第二阈值为纬度间隔,对所述目标城市进行栅格化处理,得到每个栅格的经纬度范围和每个栅格对应的集客专线的关系。
7.一种集客专线的聚类装置,其特征在于,包括处理器,当所述集客专线的聚类装置运行时,所述处理器执行计算机执行指令,以使所述集客专线的聚类装置执行如权利要求1-3任一项所述的集客专线的聚类方法。
8.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1-3任一项所述的集客专线的聚类方法。
CN202010934091.1A 2020-09-08 2020-09-08 一种集客专线的聚类方法和装置 Active CN112001454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010934091.1A CN112001454B (zh) 2020-09-08 2020-09-08 一种集客专线的聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010934091.1A CN112001454B (zh) 2020-09-08 2020-09-08 一种集客专线的聚类方法和装置

Publications (2)

Publication Number Publication Date
CN112001454A CN112001454A (zh) 2020-11-27
CN112001454B true CN112001454B (zh) 2023-06-23

Family

ID=73468889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010934091.1A Active CN112001454B (zh) 2020-09-08 2020-09-08 一种集客专线的聚类方法和装置

Country Status (1)

Country Link
CN (1) CN112001454B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516170B (zh) * 2021-05-19 2023-05-23 电子科技大学 基于贝叶斯神经网络随机加法饱和结构的图像分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN108271120A (zh) * 2017-12-22 2018-07-10 阿里巴巴集团控股有限公司 目标区域及目标用户的确定方法、装置及设备
CN108597525A (zh) * 2018-04-25 2018-09-28 四川远鉴科技有限公司 语音声纹建模方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447204B2 (en) * 2003-01-27 2008-11-04 Rmi Corporation Method and device for the classification and redirection of data packets in a heterogeneous network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN108271120A (zh) * 2017-12-22 2018-07-10 阿里巴巴集团控股有限公司 目标区域及目标用户的确定方法、装置及设备
CN108597525A (zh) * 2018-04-25 2018-09-28 四川远鉴科技有限公司 语音声纹建模方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Customer Value Assessment of Sichuan Mobile;Wang Yingjie;《ISCTE-Instituto Universitario de Lisboa ProQuest Dissertations Publishing》;1-164 *
Group Customer Special Line Correction Algorithm Design and Application Based on PTN Technology;Zhu Heng-jun 等;《Adavanced Materials Research》;989-994 *
基于高斯混合模型的期望最大化聚类算法;尹楠;《统计与决策》;87-89 *
黑龙江移动公司集团专线业务发展策略研究;李刚;《中国优秀硕士学位论文全文数据库经济与管理科学辑》;J155-155 *

Also Published As

Publication number Publication date
CN112001454A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
EP3014904B1 (en) Categorized location identification based on historical locations of a user device
US20020120698A1 (en) Method and system for emergency electronic communication network
CN110020777A (zh) 一种电力客户业务工单处理系统和方法
US9686213B2 (en) Method and system for account recommendation
CN110138732A (zh) 访问请求的响应方法、装置、设备及存储介质
CN108257025B (zh) 孤儿保单分配方法和装置
CN109783426A (zh) 采集数据的方法、装置、计算机设备及存储介质
CN111371672A (zh) 消息推送方法及装置
CN110109766A (zh) 数据请求方法、装置、系统、数据转发装置及存储介质
CN109885636A (zh) 一种用户画像方法和服务器
CN112001454B (zh) 一种集客专线的聚类方法和装置
CN105450878B (zh) 坐席资源码的分配方法和分配系统
CN114757639A (zh) 数据处理方法、装置、设备和存储介质
US20200186473A1 (en) Cellular Network Management based on Automatic Social-Data Acquisition
CN106101025A (zh) 流量分配方法及装置
CN108471387B (zh) 一种日志流量分散控制方法及系统
CN103188629B (zh) 一种不同制式网络间的流量引导方法和装置
CN113630786B (zh) 网络数据流量预测方法、装置、计算设备及存储介质
CN109428774A (zh) 一种dpi设备的数据处理方法及相关的dpi设备
CN114697885A (zh) Lan群组计费的方法、及相关装置
CN111818541A (zh) 基站部署数量的计算方法、系统、电子设备及存储介质
WO2018228343A1 (zh) 道路救援方法及应用服务器
CN114006843B (zh) 确定带宽的方法、装置和电子设备
CN107515794A (zh) 一种气象数据获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant