CN107222319B - 一种通信操作分析方法及装置 - Google Patents
一种通信操作分析方法及装置 Download PDFInfo
- Publication number
- CN107222319B CN107222319B CN201610162559.3A CN201610162559A CN107222319B CN 107222319 B CN107222319 B CN 107222319B CN 201610162559 A CN201610162559 A CN 201610162559A CN 107222319 B CN107222319 B CN 107222319B
- Authority
- CN
- China
- Prior art keywords
- ticket
- internet
- category
- historical
- surfing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种通信操作分析方法及装置,其中方法包括:获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;基于历史上网话单对应的至少一个基本特征因子确定上网模型;基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理。
Description
技术领域
本发明涉及通信领域中的网络管理技术,尤其涉及一种通信操作分析方法及装置。
背景技术
近几年,随着信息技术的飞跃发展,用户使用数据通信网络会出现用户数据信息泄露事件、异常的登陆信息和访问网站信息,直接影响用户的信誉度和财产安全。另外,用户使用数据通信网络时,“未上网却产生流量费用”和“实际流量与预期流量不符”这两项带来的困扰严重影响了客户满意度。
目前,电信运营商虽然为用户提供了各种类型的数据流量提醒机制,但上述常用的提醒机制无法区分正常和异常的数据流量,且无法单独为异常数据流量进行预警。
发明内容
有鉴于此,本发明的目的在于提供一种通信操作分析方法及装置,能至少解决现有技术中存在的上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种通信操作分析方法,所述方法包括:
获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;
基于历史上网话单对应的至少一个基本特征因子确定上网模型;
基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理。
本发明实施例提供了一种通信操作分析装置,所述装置包括:
信息获取单元,用于获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
模型建立单元,用于基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;基于历史上网话单对应的至少一个基本特征因子确定上网模型;
分析单元,用于基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理。
本发明实施例提供了通信操作分析方法及装置,基于用户的历史上网话单确定至少一个基本特征因子,进而基于历史上网话单的至少一个基本特征因子确定上网模型,并利用上网模型对用户产生的第一话单进行分析,最终能够基于分析结果进行处理。首先采用上网话单特征因子进行处理的方式能够降低资源占用率,提高计算效率;并且通过上网模型的建立确定出针对话单的分析结果,进而能够基于分析结果进行处理,如此减少了用户不知情产生流量的情况。
附图说明
图1为本发明实施例通信操作分析方法流程示意图;
图2为本发明实施例对上网话单进行特征提取的提示图;
图3为本发明实施例通信操作分析方法中的建立上网模型流程示意图;
图4为本发明实施例通信操作分析方法中的基于上网模型进行分析流程示意图;
图5为本发明实施例通信操作分析装置组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
实施例一、
本发明实施例提供了一种通信操作分析方法,如图1所示,包括:
步骤101:获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
步骤102:基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;
步骤103:基于历史上网话单对应的至少一个基本特征因子确定上网模型;
步骤104:基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理。
本实施例可以应用于网络设备,比如网络侧的服务器中,也可以有移动终端来对本终端的操作进行分析,也就是说,本实施例即能够使用于网络设备、也能够使用于移动终端,本实施例中不对其进行限定。
下面本实施例着重针对如何建立上网模型进行具体说明:
所述基于历史上网话单对应的至少一个基本特征因子确定上网模型,包括:
基于历史上网话单对应的至少一个基本特征因子之间的距离值,确定至少一个类别、以及每一个类别对应的频数;其中,每一个类别中分别对应有N条历史上网话单,N为大于等于1的整数;
基于所述类别对应的频数确定所述类别对应的权值;
基于每一个类别对应的权重、以及每一个类别对应的中心值,建立上网模型。
其中,所述基于历史上网话单对应的至少一个基本特征因子之间的距离值,确定至少一个类别、以及每一个类别对应的频数,包括:
判断当前输入的历史上网话单是否为第一条操作记录;
若是第一条操作记录,则设置当前的所述历史上网话单对应的基本特征因子作为新建立的类别的中心特征,并将所述类别的频数加一;
若不是第一条操作记录,则计算当前历史上网话单对应的基本特征因子与当前已有的至少一个类别对应的中心特征之间的距离值,基于所述历史上网话单与至少一个类别的中心特征之间的距离值选取对应的类别,基于所述历史上网话单更新所述对应的类别的中心特征以及所述类别对应的频数。
本实施例中所述历史上网话单,可以体现为保存在网络侧的用户的上网话单,所述上网特征提取可以采用用户的上网时间段、上网频率和上网流量特征作为用户上网的基本特征因子。如图2所示,其中,分别基于三个上网特征来进行分类,分出来以下A、B、C三种类别:
A.上网时间段:指用户每天上网的时间段;
B.上网频率:指用户单位时间内上网的次数(次/分);
C.上网流量:指用户每次上网的流量(KB)。
这样,对于每一条历史上网话单即上网话单在某一时间区间内的多个特征因子,可以看成是多模的,我们可以通过基于聚类的原理将用户的话单特征提炼为几个类来代表的样本集,上网话单可以聚类成3类。
具体的上网模型的学习过程可以参见图3,具体如下:
一、初始化并建立参数集。对于每一条话单,令Km为最大类别数,Td为类间距阈值,当前类别数为0,每一类的频数设为0。
二、输入话单。
三、如果输入话单为第一条话单,则令每一话单当前的特征量xt(t为第几条话单)作为第一类的中心,并将该类的频数加1,然后回到步骤二;如果输入不是第一条话单,则转到步骤四。
四、对每一话单,计算当前话单特征量xt与该话单已有类别的聚类中心ci,t-1的距离,i是聚类中心个数,令最小距离为Dmin:
Dmin=min(|ci,t-1-xt|) (1-1)
其中,使得距离最小的类别为第k类:
k=mini(|ci,t-1-xt|) (1-2)
如果Dmin<Td,则将该特征量归至最小距离的类中,将该类的频数加1,并更新该类的聚类中心为:
ck,t=(1-α)ck,t-1+αxt (1-3)
其中α为学习速率,其大小可以根据具体的情况而定。然后转至步骤五。
如果Dmin>Td,如果已有的类别数小于定义的最大类别数Km,则增加一个新类,将特征量xt作为新类的聚类中心,并将该类的频数加1,然后转至五。如果已有类别数大于Km,则找出频数最少的类,将其移除,并将特征量xt作为新一类的聚类中心,新类的频数设为1,然后转至步骤五。
五、如果学习过程完成,即所有的N个样本话单已完成聚类,则结束,否则回到二。
其中类间距阈值Td可以通过式1-4进行计算
Td=Tσ (1-4)
通常Td根据场景的不同取一至两倍的σ,即T为1或2,σ是类间方差。Km通常选取为10至20类,场景越复杂,所需的类别数越多。每一类由其聚类中心与出现频数表示。显然,出现频率高的类别应对话单模型有较多的贡献,而出现频率低的类别对话单模型影响小,通过更新机制会被逐渐抑制和取代。
通过以上的聚类过程,原本的N个样本x1,x2,...,xN可以由M个新样本c1,c2,...,cM来表示,ci表示第i类的聚类中心,从而得到能够表示全样本关键特征的小样本集。新样本集中的每个样本对概率函数的贡献不同,其贡献度由每类出现的频数ni,i=1,2…M表示,则由式(1-4)计算每类的权值:
则对应话单的概率函数通过下式进行计算:
其中,d为特征因子个数,T代表转置。
可见,通过采用上述方案,能够基于用户的历史上网话单确定至少一个基本特征因子,进而基于历史上网话单的至少一个基本特征因子确定上网模型,并利用上网模型对用户产生的第一话单进行分析,最终能够基于分析结果进行处理。首先采用上网话单特征因子进行处理的方式能够降低资源占用率,提高计算效率;并且通过上网模型的建立确定出针对话单的分析结果,进而能够基于分析结果进行处理,如此减少了用户不知情产生流量的情况。
实施例二、
本发明实施例提供了一种通信操作分析方法,如图1所示,包括:
步骤101:获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
步骤102:基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;
步骤103:基于历史上网话单对应的至少一个基本特征因子确定上网模型;
步骤104:基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理。
本实施例可以应用于网络设备,比如网络侧的服务器中,也可以有移动终端来对本终端的操作进行分析,也就是说,本实施例即能够使用于网络设备、也能够使用于移动终端,本实施例中不对其进行限定。
下面本实施例着重针对如何采用上网模型进行分析来具体说明:
所述基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,包括:
获取到用户采用移动终端与移动通信数据网络进行数据交互的第一话单的记录;
从所述第一话单的记录中提取得到特征量;
基于所述第一话单的记录对应的特征量、以及所述上网模型,计算得到所述第一话单记录对应的概率值,将所述概率值作为针对所述第一话单的分析结果。
相应的,所述基于分析结果进行处理,包括:
判断分析结果中包含的概率值是否大于预设门限值;
若大于,则确定所述第一话单为正常操作;
若不大于,则确定所述第一话单为异常操作,针对所述第一话单生成提示信息。
结合图4,对话单分析并进行处理的具体步骤进行说明:
步骤401:设置阈值等参数;
步骤402:输入样本话单;
步骤403:若是第一条话单,则直接将该条话单的特征值设置为聚类中心,若不是第一条话单,则判断当条话单与聚类中心的距离;
步骤404:根据距离值判断更新聚类中心;
步骤405:判断是否完成聚类中心的建立,即所有的N个样本话单是否已完成聚类,若是,走到步骤406,否则回到步骤402;
步骤406:输入用户产生话单;
步骤407:对每一话单,根据已有类别聚类中心ci,t-1,计算当前话单特征量xt对于第i类中心出现的概率:
则xt出现的总概率为
如果Pr(xt)>th,则该话单暂时被判为正常话单,令B(xt)=1,如果Pr(xt)<th,则该话单暂时被判为异常话单,令B(xt)=0,其中th是设定的判别阈值,具体可根据用户特征话单集波动情况来定义,即波动情况越大,该值越大;
步骤408:对于每一个话单,如果其B(xt)=1,则需要对该话单的概率模型进行更新,我们使用短时更新来对样本集进行更新。首先需要找出与新进的话单特征值xt最相近的类别k:
k=maxi(Pri(xt)) (1-9)
如果新进的话单特征值xt与最接近的聚类中心的距离大于核带宽的两倍,即那么引入一个新类,否则的话将xt加入到类ck,t中,并根据式1-3更新聚类中心。如果话单的B(xt)=0,则其为异常,转至步骤409。
步骤409:如果B(xt)=0,则判断为异常,则给用户发短信告警。
步骤410:如果所有话单都处理完成,则结束,没有的话则转到步骤406。
通过上述流程对话单的计算和判别,采集用户手机终端所产生的每条上网话单,抽取话单中各个维度,与话单特征库里的特征指标进行匹配;若发现上网话单中流量是异常流量,则形成危险提醒短信,向用户终端发送,提醒用户采取措施避免继续产生异常上网话单。
采用建立用户话单概率模型,有效地判断用户异常上网话单,降低用户不知情产生流量的情况,提高公司收入。从本方案实施后,“未上网却产生流量费用”和“使用量小费用很高”两大类用户投诉,给用户退费率下降15%,重复投诉率也下降了10%,净化了手机上网环境,提升了客户满意度,维护了中国移动的良好企业形象,创造了巨大的社会效益。
首先提取用户上网特征进行建模,用户上网特征的主要原理是结合用户日常上网习惯,建立用户上网特征库,抽取每次上网特征数据,与特征库里规则进行匹配,根据规则匹配的结果判断用户每次上网行为是否存在安全隐患。本文采集用户终端上网话单进行特征分析,并进行概率模型建模。因为上网话单在应用领域中适用的范围比较广阔,其特征数据丰富、特征明显、结果可靠、处理及时性强。
(1)采集用户终端产生话单中的用户号码、上网时间、上网流量、上网频率、用户IMEI等各个维度信息,并对样本集信息进行聚类分析,降低存储量,这样在样本集极少的情况下,能够得到与原样本集相似的概率函数,快速有效地建立用户上网话单特征模型。匹配用户上网话单,如果用户上网话单特征与用户平时上网习惯严重不符,那么这些话单将被定位成疑似异常上网话单。
(2)用户话单匹配用户上网话单特征模型,进行概率计算。当概率低于一定值时,则判断用户上网话单不符合用户上网习惯,那么将这些话单判定为疑似异常上网话单,并对用户进行短信告知。
用户自主产生的上网流量话单一般具有一定的规律和特征,本实施例利用该特性来判断用户话单是否正常,符合以往用户上网特征的判别为正常话单,差异较大则判别为异常话单,及时通知用户,避免损失。本实施例实现方案中首先采集用户终端上网话单进行特征分析,并将其重要特征进行聚类预处理,进而进行概率模型建模,形成上网话单模型,然后匹配用户的上网话单与话单模型,进行概率计算,通过其值来判断用户的话单是否正常。
聚类预处理用户话单可以解决概率计算复杂度大、对硬件存储要求较高的问题,同时聚类学习过程还具有以下优势:(1)高度的可伸缩性,即在聚类话单数据集合非常大时,仍能够得到较满意的聚类分类效果;(2)抗噪声数据的性能强,实际的样本数据库中的数据可能包含孤立的点甚至是错误的数据,聚类算法对这些类似噪声的数据不敏感,不会影响聚类的效果。因此,将用户话单的各个特征进行聚类分析,有助于提高计算效率。
话单概率模型建立是采用非参数核密度估计算法,该算法可以直接从观测数据中估计未知密度函数,所以不需要假定模型的参数或者对参数进行优化的工作,因此该方法已经被广泛应用于鲁棒的复杂数据建模。在非参数核密度估计算法中,取话单序列中连续的N条话单作为样本,则沿着时间轴,每个话单特征都有N个样本值,于是可以为每个话单特征建立一个概率模型。当话单样本足够多时,核密度估计能够逐渐的收敛于真实话单模型。
可见,通过采用上述方案,能够基于用户的历史上网话单确定至少一个基本特征因子,进而基于历史上网话单的至少一个姐基本特征因子确定上网模型,并利用上网模型对用户产生的第一话单进行分析,最终能够基于分析结果进行处理。首先采用上网话单特征因子进行处理的方式能够降低资源占用率,提高计算效率;并且通过上网模型的建立确定出针对话单的分析结果,进而能够基于分析结果进行处理,如此减少了用户不知情产生流量的情况。
实施例三、
本发明实施例提供了一种通信操作分析装置,如图5所示,所述装置包括:
信息获取单元51,用于获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
模型建立单元52,用于基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;基于历史上网话单对应的至少一个基本特征因子确定上网模型;
分析单元53,用于基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理。
本实施例所述通信操作分析装置可以为网络设备,比如网络侧的服务器,或者还可以为服务器集群,也就是说上述三个模块可以设置于一个服务器中,也可以分别设置在不同的服务器中;另外,上述通信操作分析装置也可以为移动终端。
下面本实施例着重针对如何建立上网模型进行具体说明:
所述模型建立单元52,用于基于历史上网话单对应的至少一个基本特征因子之间的距离值,确定至少一个类别、以及每一个类别对应的频数;其中,每一个类别中分别对应有N条历史上网话单,N为大于等于1的整数;基于所述类别对应的频数确定所述类别对应的权值;基于每一个类别对应的权重、以及每一个类别对应的中心值,建立上网模型。
其中,所述模型建立单元52,用于判断当前输入的历史上网话单是否为第一条操作记录;若是第一条操作记录,则设置当前的所述历史上网话单对应的基本特征因子作为新建立的类别的中心特征,并将所述类别的频数加一;若不是第一条操作记录,则计算当前历史上网话单对应的基本特征因子与当前已有的至少一个类别对应的中心特征之间的距离值,基于所述历史上网话单与至少一个类别的中心特征之间的距离值选取对应的类别,基于所述历史上网话单更新所述对应的类别的中心特征以及所述类别对应的频数。
本实施例中所述历史上网话单,可以体现为保存在网络侧的用户的上网话单,所述上网特征提取可以采用用户的上网时间段、上网频率和上网流量特征作为用户上网的基本特征因子。
具体的上网模型的学习过程可以参见图3,具体如下:
一、初始化并建立参数集。对于每一条话单,令Km为最大类别数,Td为类间距阈值,当前类别数为0,每一类的频数设为0。
二、输入话单。
三、如果输入话单为第一条话单,则令每一话单当前的特征量xt(t为第几条话单)作为第一类的中心,并将该类的频数加1,然后回到步骤二;如果输入不是第一条话单,则转到步骤四。
四、对每一话单,计算当前话单特征量xt与该话单已有类别的聚类中心ci,t-1的距离,i是聚类中心个数,令最小距离为Dmin:
Dmin=min(|ci,t-1-xt|) (1-1)
其中,使得距离最小的类别为第k类:
k=mini(|ci,t-1-xt|) (1-2)
如果Dmin<Td,则将该特征量归至最小距离的类中,将该类的频数加1,并更新该类的聚类中心为:
ck,t=(1-α)ck,t-1+αxt (1-3)
其中α为学习速率,其大小可以根据具体的情况而定。然后转至步骤五。
如果Dmin>Td,如果已有的类别数小于定义的最大类别数Km,则增加一个新类,将特征量xt作为新类的聚类中心,并将该类的频数加1,然后转至五。如果已有类别数大于Km,则找出频数最少的类,将其移除,并将特征量xt作为新一类的聚类中心,新类的频数设为1,然后转至步骤五。
五、如果学习过程完成,即所有的N个样本话单已完成聚类,则结束,否则回到二。
其中类间距阈值Td可以通过式1-4进行计算
Td=Tσ (1-4)
通常Td根据场景的不同取一至两倍的σ,即T为1或2,σ是类间方差。Km通常选取为10至20类,场景越复杂,所需的类别数越多。每一类由其聚类中心与出现频数表示。显然,出现频率高的类别应对话单模型有较多的贡献,而出现频率低的类别对话单模型影响小,通过更新机制会被逐渐抑制和取代。
通过以上的聚类过程,原本的N个样本x1,x2,...,xN可以由M个新样本c1,c2,...,cM来表示,ci表示第i类的聚类中心,从而得到能够表示全样本关键特征的小样本集。新样本集中的每个样本对概率函数的贡献不同,其贡献度由每类出现的频数ni,i=1,2…M表示,则由式(1-4)计算每类的权值:
则对应话单的概率函数通过下式进行计算:
可见,通过采用上述方案,能够基于用户的历史上网话单确定至少一个基本特征因子,进而基于历史上网话单的至少一个基本特征因子确定上网模型,并利用上网模型对用户产生的第一话单进行分析,最终能够基于分析结果进行处理。首先采用上网话单特征因子进行处理的方式能够降低资源占用率,提高计算效率;并且通过上网模型的建立确定出针对话单的分析结果,进而能够基于分析结果进行处理,如此减少了用户不知情产生流量的情况。
实施例四、
本发明实施例提供了一种通信操作分析装置,如图5所示,所述装置包括:
信息获取单元51,用于获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
模型建立单元52,用于基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;基于历史上网话单对应的至少一个基本特征因子确定上网模型;
分析单元53,用于基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理。
本实施例所述通信操作分析装置可以为网络设备,比如网络侧的服务器,或者还可以为服务器集群,也就是说上述三个模块可以设置于一个服务器中,也可以分别设置在不同的服务器中;另外,上述通信操作分析装置也可以为移动终端。
下面本实施例着重针对如何采用上网模型进行分析来具体说明:
所述分析单元53,用于获取到用户采用移动终端与移动通信数据网络进行数据交互的第一话单的记录;从所述第一话单的记录中提取得到特征量;基于所述第一话单的记录对应的特征量、以及所述上网模型,计算得到所述第一话单记录对应的概率值,将所述概率值作为针对所述第一话单的分析结果。
相应的,所述分析单元53,用于判断分析结果中包含的概率值是否大于预设门限值;若大于,则确定所述第一话单为正常操作;若不大于,则确定所述第一话单为异常操作,针对所述第一话单生成提示信息。
采用建立用户话单概率模型,有效地判断用户异常上网话单,降低用户不知情产生流量的情况,提高公司收入。从本方案实施后,“未上网却产生流量费用”和“使用量小费用很高”两大类用户投诉,给用户退费率下降15%,重复投诉率也下降了10%,净化了手机上网环境,提升了客户满意度,维护了中国移动的良好企业形象,创造了巨大的社会效益。
首先提取用户上网特征进行建模,用户上网特征的主要原理是结合用户日常上网习惯,建立用户上网特征库,抽取每次上网特征数据,与特征库里规则进行匹配,根据规则匹配的结果判断用户每次上网行为是否存在安全隐患。本文采集用户终端上网话单进行特征分析,并进行概率模型建模。因为上网话单在应用领域中适用的范围比较广阔,其特征数据丰富、特征明显、结果可靠、处理及时性强。
(1)采集用户终端产生话单中的用户号码、上网时间、上网流量、上网频率、用户IMEI等各个维度信息,并对样本集信息进行聚类分析,降低存储量,这样在样本集极少的情况下,能够得到与原样本集相似的概率函数,快速有效地建立用户上网话单特征模型。匹配用户上网话单,如果用户上网话单特征与用户平时上网习惯严重不符,那么这些话单将被定位成疑似异常上网话单。
(2)用户话单匹配用户上网话单特征模型,进行概率计算。当概率低于一定值时,则判断用户上网话单不符合用户上网习惯,那么将这些话单判定为疑似异常上网话单,并对用户进行短信告知。
用户自主产生的上网流量话单一般具有一定的规律和特征,本实施例利用该特性来判断用户话单是否正常,符合以往用户上网特征的判别为正常话单,差异较大则判别为异常话单,及时通知用户,避免损失。本实施例实现方案中首先采集用户终端上网话单进行特征分析,并将其重要特征进行聚类预处理,进而进行概率模型建模,形成上网话单模型,然后匹配用户的上网话单与话单模型,进行概率计算,通过其值来判断用户的话单是否正常。
聚类预处理用户话单可以解决概率计算复杂度大、对硬件存储要求较高的问题,同时聚类学习过程还具有以下优势:(1)高度的可伸缩性,即在聚类话单数据集合非常大时,仍能够得到较满意的聚类分类效果;(2)抗噪声数据的性能强,实际的样本数据库中的数据可能包含孤立的点甚至是错误的数据,聚类算法对这些类似噪声的数据不敏感,不会影响聚类的效果。因此,将用户话单的各个特征进行聚类分析,有助于提高计算效率。
话单概率模型建立是采用非参数核密度估计算法,该算法可以直接从观测数据中估计未知密度函数,所以不需要假定模型的参数或者对参数进行优化的工作,因此该方法已经被广泛应用于鲁棒的复杂数据建模。在非参数核密度估计算法中,取话单序列中连续的N条话单作为样本,则沿着时间轴,每个话单特征都有N个样本值,于是可以为每个话单特征建立一个概率模型。当话单样本足够多时,核密度估计能够逐渐的收敛于真实话单模型。
可见,通过采用上述方案,能够基于用户的历史上网话单确定至少一个基本特征因子,进而基于历史上网话单的至少一个基本特征因子确定上网模型,并利用上网模型对用户产生的第一话单进行分析,最终能够基于分析结果进行处理。首先采用上网话单特征因子进行处理的方式能够降低资源占用率,提高计算效率;并且通过上网模型的建立确定出针对话单的分析结果,进而能够基于分析结果进行处理,如此减少了用户不知情产生流量的情况。
本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、网络设备、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (6)
1.一种通信操作分析方法,其特征在于,所述方法包括:
获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;
基于历史上网话单对应的至少一个基本特征因子确定上网模型;
基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理;
所述基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,包括:
获取到用户采用移动终端与移动通信数据网络进行数据交互的第一话单的记录;
从所述第一话单的记录中提取得到特征量;
基于所述第一话单的记录对应的特征量、以及所述上网模型,计算得到所述第一话单记录对应的概率值,将所述概率值作为针对所述第一话单的分析结果;
所述基于分析结果进行处理,包括:判断分析结果中包含的概率值是否大于预设门限值;若大于,则确定所述第一话单为正常操作;若不大于,则确定所述第一话单为异常操作,针对所述第一话单生成提示信息。
2.根据权利要求1所述的方法,其特征在于,所述基于历史上网话单对应的至少一个基本特征因子确定上网模型,包括:
基于历史上网话单对应的至少一个基本特征因子之间的距离值,确定至少一个类别、以及每一个类别对应的频数;其中,每一个类别中分别对应有N条历史上网话单,N为大于等于1的整数;
基于所述类别对应的频数确定所述类别对应的权值;
基于每一个类别对应的权重、以及每一个类别对应的中心值,建立上网模型;
所述基于历史上网话单对应的至少一个基本特征因子之间的距离值,确定至少一个类别、以及每一个类别对应的频数,包括:
判断当前输入的历史上网话单是否为第一条操作记录;
若是第一条操作记录,则设置当前的所述历史上网话单对应的基本特征因子作为新建立的类别的中心特征,并将所述类别的频数加一;
若不是第一条操作记录,则计算当前历史上网话单对应的基本特征因子与当前已有的至少一个类别对应的中心特征之间的距离值,基于所述历史上网话单与至少一个类别的中心特征之间的距离值选取对应的类别,基于所述历史上网话单更新所述对应的类别的中心特征以及所述类别对应的频数。
3.根据权利要求1所述的方法,其特征在于,所述基于分析结果进行处理,包括:
判断分析结果中包含的概率值是否大于预设门限值;
若大于,则确定所述第一话单为正常操作;
若不大于,则确定所述第一话单为异常操作,针对所述第一话单生成提示信息。
4.一种通信操作分析装置,其特征在于,所述装置包括:
信息获取单元,用于获取到用户的至少一条历史上网话单,其中,所述历史上网话单至少包括有预设时长内与移动通信数据网络进行数据交互的操作记录;
模型建立单元,用于基于所述历史上网话单进行上网特征提取,得到历史上网话单对应的至少一个基本特征因子;基于历史上网话单对应的至少一个基本特征因子确定上网模型;
分析单元,用于基于所述上网模型,对采用移动终端与移动通信数据网络进行数据交互的第一话单进行分析,并基于分析结果进行处理;
所述分析单元,还用于获取到用户采用移动终端与移动通信数据网络进行数据交互的第一话单的记录;从所述第一话单的记录中提取得到特征量;基于所述第一话单的记录对应的特征量、以及所述上网模型,计算得到所述第一话单记录对应的概率值,将所述概率值作为针对所述第一话单的分析结果;
所述基于分析结果进行处理,包括:判断分析结果中包含的概率值是否大于预设门限值;若大于,则确定所述第一话单为正常操作;若不大于,则确定所述第一话单为异常操作,针对所述第一话单生成提示信息。
5.根据权利要求4所述的装置,其特征在于,
所述模型建立单元,用于基于历史上网话单对应的至少一个基本特征因子之间的距离值,确定至少一个类别、以及每一个类别对应的频数;其中,每一个类别中分别对应有N条历史上网话单,N为大于等于1的整数;基于所述类别对应的频数确定所述类别对应的权值;基于每一个类别对应的权重、以及每一个类别对应的中心值,建立上网模型;
所述模型建立单元,用于判断当前输入的历史上网话单是否为第一条操作记录;若是第一条操作记录,则设置当前的所述历史上网话单对应的基本特征因子作为新建立的类别的中心特征,并将所述类别的频数加一;若不是第一条操作记录,则计算当前历史上网话单对应的基本特征因子与当前已有的至少一个类别对应的中心特征之间的距离值,基于所述历史上网话单与至少一个类别的中心特征之间的距离值选取对应的类别,基于所述历史上网话单更新所述对应的类别的中心特征以及所述类别对应的频数。
6.根据权利要求5所述的装置,其特征在于,
所述分析单元,用于判断分析结果中包含的概率值是否大于预设门限值;若大于,则确定所述第一话单为正常操作;若不大于,则确定所述第一话单为异常操作,针对所述第一话单生成提示信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610162559.3A CN107222319B (zh) | 2016-03-22 | 2016-03-22 | 一种通信操作分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610162559.3A CN107222319B (zh) | 2016-03-22 | 2016-03-22 | 一种通信操作分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107222319A CN107222319A (zh) | 2017-09-29 |
CN107222319B true CN107222319B (zh) | 2020-02-11 |
Family
ID=59928364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610162559.3A Active CN107222319B (zh) | 2016-03-22 | 2016-03-22 | 一种通信操作分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107222319B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111372073B (zh) * | 2018-12-26 | 2021-12-10 | 中国移动通信集团四川有限公司 | 视频质量的评价方法、装置、设备和介质 |
CN111641535B (zh) * | 2020-05-28 | 2021-10-29 | 中国工商银行股份有限公司 | 网络监控方法、装置、电子设备和介质 |
CN114244731B (zh) * | 2021-12-16 | 2024-02-27 | 湖南师范大学 | 终端屏幕亮屏检测方法及装置、服务器、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101707756A (zh) * | 2009-10-12 | 2010-05-12 | 南京联创科技集团股份有限公司 | 基于内存表的号码级结算成本分析系统 |
CN103095945A (zh) * | 2011-11-03 | 2013-05-08 | 中国电信股份有限公司 | 基于话单分类的计费方法和系统、分类计费装置 |
CN104077332A (zh) * | 2013-03-29 | 2014-10-01 | 上海城际互通通信有限公司 | 一种基于计费信息的用户行为分析方法 |
CN104239556A (zh) * | 2014-09-25 | 2014-12-24 | 西安理工大学 | 基于密度聚类的自适应轨迹预测方法 |
-
2016
- 2016-03-22 CN CN201610162559.3A patent/CN107222319B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101707756A (zh) * | 2009-10-12 | 2010-05-12 | 南京联创科技集团股份有限公司 | 基于内存表的号码级结算成本分析系统 |
CN103095945A (zh) * | 2011-11-03 | 2013-05-08 | 中国电信股份有限公司 | 基于话单分类的计费方法和系统、分类计费装置 |
CN104077332A (zh) * | 2013-03-29 | 2014-10-01 | 上海城际互通通信有限公司 | 一种基于计费信息的用户行为分析方法 |
CN104239556A (zh) * | 2014-09-25 | 2014-12-24 | 西安理工大学 | 基于密度聚类的自适应轨迹预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107222319A (zh) | 2017-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
US9201953B2 (en) | Filtering information using targeted filtering schemes | |
CN103795612B (zh) | 即时通讯中的垃圾和违法信息检测方法 | |
CN111339436B (zh) | 一种数据识别方法、装置、设备以及可读存储介质 | |
CN112464058B (zh) | 一种基于XGBoost算法的电信互联网诈骗识别方法 | |
CN112801155B (zh) | 基于人工智能的业务大数据分析方法及服务器 | |
CN107222319B (zh) | 一种通信操作分析方法及装置 | |
CN111611519B (zh) | 一种个人异常行为检测方法及装置 | |
CN107886009B (zh) | 防隐私泄露的大数据生成方法和系统 | |
CN113992340B (zh) | 用户异常行为识别方法、装置、设备和存储介质 | |
CN109274834B (zh) | 一种基于通话行为的快递号码识别方法 | |
CN110083507A (zh) | 关键性能指标分类方法及装置 | |
CN109978575B (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN112468444B (zh) | 互联网域名滥用识别方法和装置,电子设备,存储介质 | |
CN110677269B (zh) | 通信用户关系的确定方法、装置和计算机可读存储介质 | |
CN114155880A (zh) | 一种基于gbdt算法模型的非法语音识别方法及系统 | |
CN107943678B (zh) | 一种评价应用访问过程的方法及评价服务器 | |
CN111062422B (zh) | 一种套路贷体系化识别方法及装置 | |
CN111368858B (zh) | 用户满意度评估方法及装置 | |
CN109995605B (zh) | 一种流量识别方法、装置以及计算机可读存储介质 | |
CN114339639B (zh) | 通话识别方法、装置、存储介质和电子设备 | |
CN112437197B (zh) | 一种基于通信行为信息熵的异常呼叫发现方法与装置 | |
CN111465021B (zh) | 基于图的骚扰电话识别模型构建方法 | |
CN114286370B (zh) | 基站告警对用户感知业务影响的确定方法及装置 | |
CN114157760A (zh) | 基于逻辑回归算法及决策树算法的非法语音的识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |