CN109327356A - 一种用户画像的生成方法和装置 - Google Patents

一种用户画像的生成方法和装置 Download PDF

Info

Publication number
CN109327356A
CN109327356A CN201811386597.2A CN201811386597A CN109327356A CN 109327356 A CN109327356 A CN 109327356A CN 201811386597 A CN201811386597 A CN 201811386597A CN 109327356 A CN109327356 A CN 109327356A
Authority
CN
China
Prior art keywords
user
portrait
downlink traffic
data
designated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811386597.2A
Other languages
English (en)
Other versions
CN109327356B (zh
Inventor
刘永生
王光全
廖军
文湘江
任梦璇
刘仟仞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201811386597.2A priority Critical patent/CN109327356B/zh
Publication of CN109327356A publication Critical patent/CN109327356A/zh
Application granted granted Critical
Publication of CN109327356B publication Critical patent/CN109327356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/065Generation of reports related to network devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0892Network architectures or network communication protocols for network security for authentication of entities by using authentication-authorization-accounting [AAA] servers or protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明的实施例提供了一种用户画像的生成方法和装置,涉及通信技术领域,解决了如何计算出每个用户的用户画像的问题。该方法包括,获取网络流量监控系统数据和AAA数据;根据网络流量监控系统数据和AAA数据,确定指定用户ID的用户下行流量中间数据;根据用户下行流量中间数据,确定指定用户ID的画像参数;其中,画像参数包括用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg中的至少一项;根据画像参数,生成指定用户ID的用户画像。

Description

一种用户画像的生成方法和装置
技术领域
本发明涉及通信技术领域,尤其涉及一种用户画像的生成方法和装置。
背景技术
近年来,运营商对固网宽带用户的竞争越来越激烈,在进行价格战的同时,也在网络和业务质量方面进行比拼,比如:免费提高签约带宽。
用户画像是企业通过收集的用户基础信息和行为数据等,对用户进行标签化,从而获得用户的行为特征、消费习惯等等。对于电信运营商来说,建立良好的固网用户画像,对于开展存量用户维系、用户价值提升、新用户争夺等具有重要意义,因此如何计算出每个用户的用户画像成为了一个亟待解决的问题。
发明内容
本发明的实施例提供一种用户画像的生成方法和装置,解决了如何计算出每个用户的用户画像的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面、本发明的实施例提供一种用户画像的生成方法,包括:获取网络流量监控系统数据和AAA数据;其中,网络流量监控系统数据包括源IP、目的IP、源端口、目的端口和字节数中的至少一项,AAA数据包括用户ID、公网IP、私网IP、开始端口和结束端口中的至少一项;根据网络流量监控系统数据和AAA数据,确定指定用户ID的用户下行流量中间数据;根据用户下行流量中间数据,确定指定用户ID的画像参数;其中,画像参数包括用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg中的至少一项;根据画像参数,生成指定用户ID的用户画像。
由上述方案可知,通过基于运营支撑系统数据中的网络流量监控系统数据和AAA数据,从而可以确定每个指定用户ID的用户下行流量中间数据;进而可以根据任一个指定用户ID的用户下行流量中间数据确定对应该指定用户ID的画像参数,并根据该画像参数生成该指定用户ID的用户画像;由于本发明的实施例提供的用户画像的生成方法基于网络流量监控系统数据和AAA数据可以得到实时和准确的用户使用网络资源和网络业务的习惯和特征,因此生成的该指定用户ID的用户画像更加符合该用户的习惯和特征,解决了如何计算出每个用户的用户画像的问题。
第二方面、本发明的实施例提供一种用户画像的生成装置,包括:获取单元,用于获取网络流量监控系统数据和AAA数据;其中,网络流量监控系统数据包括源IP、目的IP、源端口、目的端口和字节数中的至少一项,AAA数据包括用户ID、公网IP、私网IP、开始端口和结束端口中的至少一项;处理单元,用于根据获取单元获取的网络流量监控系统数据和AAA数据,确定指定用户ID的用户下行流量中间数据;处理单元,还用于根据用户下行流量中间数据,确定指定用户ID的画像参数;其中,画像参数包括用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg中的至少一项;处理单元,还用于根据画像参数,生成指定用户ID的用户画像。
第三方面,本发明的实施例提供一种用户画像的生成装置,包括:通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接,当用户画像的生成装置运行时,处理器执行存储器存储的计算机执行指令,以使用户画像的生成装置执行如上述第一方面提供的方法。
第四方面,本发明的实施例提供一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述第一方面提供的方法。
可以理解地,上述提供的任一种用户画像的生成装置用于执行上文所提供的第一方面对应的方法,因此,其所能达到的有益效果可参考上文第一方面的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例提供的一种用户画像的生成方法的网络流量数据的示意图;
图2为本发明的实施例提供的一种用户画像的生成方法的AAA数据的示意图;
图3为本发明的实施例提供的一种用户画像的生成方法的用户下行流量中间数据的示意图;
图4为本发明的实施例提供的一种用户画像的生成方法的流程示意图;
图5为本发明的实施例提供的一种用户画像的生成装置的结构示意图之一;
图6为本发明的实施例提供的一种用户画像的生成装置的结构示意图之二。
附图标记:
用户画像的生成装置-10;
获取单元-101;处理单元-102。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
在本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本发明实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个网络是指两个或两个以上的网络。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本发明的实施例提供的用户画像的生成方法中网络流量监控系统数据是网络中的路由器实时生成的数据(比如:Netflow、NetStream等,其中Netflow是思科的技术,NetStream是华为的技术,都是采集流量的方法),通过网络传输到指定的数据采集服务器,数据采集服务器需要安装指定的软件对数据进行接收和还原;宽带计费系统数据(认证、授权、计费(英文全称:Authentication Authorization Accounting,简称:AAA)是以日志的形式保存在服务器上,可以通过文件传输协议(英文全称:File Transfer Protocol,简称:FTP)或安全文件传送协议(英文全称:Secure File Transfer Protocol,简称:SFTP)将数据传输到数据采集服务器。
其中,网络流量监控系统数据大多数是以流的形式记录用户上网流量,如图1所示通常情况下包括:流起始时间、流结束时间、源IP、源端口、目的IP、目的端口、传输层协议类型、数据包个数、字节数;AAA数据是记录用户登录的信息,如图2所示大多数包含如下信息:登录时间、注销时间、用户身份标识号码(英文全称:Identity,简称:ID)、上下行带宽、公网IP、私网IP、开始端口、结束端口。
需要说明的是,为了保证结果的准确性,本发明的实施例提供的用户画像的生成方法中网络流量监控系统数据中的流起始时间和流结束时间均位于AAA数据中的登录时间和注销时间之间。
由于,用户画像是企业通过收集的用户基础信息和行为数据等,对用户进行标签化,从而获得用户的行为特征、消费习惯等等。对于电信运营商来说,建立良好的固网用户画像,对于开展存量用户维系、用户价值提升、新用户争夺等具有重要意义;为了解决上述问题,本发明的实施例提供一种用户画像的生成方法,具体的实现方式如下:
实施例一
本发明的实施例提供一种用户画像的生成方法,如图4所示包括:
S101、获取网络流量监控系统数据和AAA数据;其中,网络流量监控系统数据包括源网络之间互连的协议(英文全称:Internet Protocol,简称:IP)、目的IP、源端口、目的端口和字节数中的至少一项,AAA数据包括用户ID、公网IP、私网IP、开始端口和结束端口中的至少一项。
需要说明的是,为了更加准确的分析出用户的用户画像,获取的网络流量监控系统数据和AAA数据越多,分析出的用户画像越准确;但是对于一些对用户画像精度要求不高的场景,可以虽然得到的用户画像不是很准确,但是可以大大降低运算的数量,保证用户的体验。
S102、根据网络流量监控系统数据和AAA数据,确定指定用户ID的用户下行流量中间数据。
需要说明的是,在实际的应用中,每个用户在AAA数据中对应一个用户ID,因此通过用户ID就可以判别需要分析的用户。
可选的,根据网络流量监控系统数据和AAA数据,确定指定用户ID的用户下行流量中间数据,包括:
S1020、确定AAA数据中指定用户ID的IP地址为公网IP时,筛选满足第一预设条件的目的IP,并根据筛选出的目的IP确定指定用户ID的用户下行流量中间数据;其中,第一预设条件包括目的IP与公网IP相同。
S1021、确定AAA数据中的指定用户ID的IP地址为私网IP时,筛选满足第二预设条件的目的IP,并根据筛选出的目的IP确定指定用户ID的用户下行流量中间数据;其中,第二预设条件包括目的IP与公网IP相同,公网IP与私网IP对应,并且a∈[b,c],a表示目的端口,b表示开始端口,c表示结束端口。
需要说明的是,在实际的应用中网络流量监控系统数据中只包含用户的IP地址和端口号,没有用户的ID,而用户的IP地址是宽带计费系统时分配的,并不是每次分配同一个IP地址,所以,从IP地址无法确定是哪个用户;另一方面,网络流量监控系统数据包含了上下行流量,上行流量是从用户到业务服务器的流量,下行流量是业务服务器到用户的流量;而AAA数据中包含了用户ID和为用户分配的IP地址和端口号的对应关系,如果没有启用网络地址转换(英文全称:Network Address Translation,简称:NAT),宽带计费系统为用户分配公网IP地址,如果启用NAT为宽带计费系统为用户分配私网IP地址。
如果宽带计费系统为用户分配的IP地址为公网IP地址,关联用户ID的方式为:使用AAA数据中的“公网IP”与网络流量数据中的“目的IP”进行对应,如果相同(网络流量监控系统数据中目的IP为公网IP地址,源IP为互联网公司的IP地址,此时对应的是下行流量;其中,该公网IP地址为宽带计费系统为用户分配的IP地址),将AAA数据中的“用户ID”添加到网络流量数据中,从而得到用户下行流量中间数据。
如果宽带计费系统为用户分配的IP地址为私网IP地址,关联用户ID的方式如下:使用AAA数据中的“公网IP”与网络流量中的“目的IP”进行对应,如果相同,再将网络流量数据中的“目的端口”与AAA数据中的“开始端口”和“结束端口”进行比较,如果在该范围内,将AAA数据中的“用户ID”添加到网络流量数据中,从而得到用户下行流量中间数据;对网络中间数据进行处理,按照用户ID进行分类,将同一用户的网络流量数据进行归类,便于后续的分析;示例性的,用户下行流量中间数据如图3所示。
S103、根据用户下行流量中间数据,确定指定用户ID的画像参数;其中,画像参数包括用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg中的至少一项。
可选的,画像参数包括:用网时长D;根据用户下行流量中间数据,确定指定用户ID的画像参数,包括:
S1030、根据用网时长公式和用户下行流量中间数据,确定指定用户ID的用网时长D;其中,用网时长公式包括:
其中,D表示用网时长,T表示单位时间长度,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0,i为大于0的整数。
需要说明的是,对网络流量中间数据进行分析,假设时间被分成等长的单位时间,每个单位时间长度为T,网络流量中间数据跨越的时间能够被分成n个单位时间;用网时长不同于从AAA数据中记录的用户登录时间和注销时间的差值,因为现在普遍使用家庭网关登录网络,用户即使不使用网络也会显示登录状态。这里计算的用网时长D是从网络流量监控系统的数据计算得到的结果,因此能够真实反映出用户使用网络的时间点。
可选的,画像参数包括:用网频率F;根据用户下行流量中间数据,确定指定用户ID的画像参数,包括:
S1031、根据用网频率公式和用户下行流量中间数据,确定指定用户ID的用网频率F;其中,用网频率公式包括:
其中,F表示用网频率,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0。
需要说明的是,在实际的应用中用网频率F的数值越高,说明用户使用网络越频繁;用网频率F的数值越低,说明用户偶尔才使用网络。
可选的,画像参数包括:源端口的流量占比Pe;根据用户下行流量中间数据,确定指定用户ID的画像参数,包括:
S1032、根据源端口的流量占比公式和用户下行流量中间数据,确定指定用户ID的源端口的流量占比Pe;其中,源端口的流量占比公式包括:
其中,Pe表示指定用户ID在源端口e的流量占比,Be表示指定用户ID在源端口e的总下行流量,表示指定用户ID在全部源端口的总下行流量,e为大于或等于0的整数。
需要说明的是,在实际的应用中对于每个用户,计算该用户流量中传输控制协议(英文全称:Transmission Control Protocol,简称:TCP)的源端口i的流量占比Pi。网络流量监控系统的数据记录了固网用户上网的流数据,“传输层协议类型”字段可以对协议进行区分,大致分成用户数据报协议(英文全称:User Datagram Protocol,简称:UDP)协议流量和TCP协议流量,通过对网络流量的前期研究,TCP流量占据主导位置,因此,这里只统计TCP端口的流量数据。在网络模型中,TCP端口对上层的应用程序,因此,该指标可以显示用户使用的应用程序情况。
可选的,画像参数包括:互联网公司的流量占比Cf,每个互联网包括至少一个源IP;根据用户下行流量中间数据,确定指定用户ID的画像参数,包括:
S1033、根据互联网公司的流量占比公式和用户下行流量中间数据,确定指定用户ID的互联网公司的流量占比Cf;其中,互联网公司的流量占比公式包括:
其中,Cf表示指定用户ID在互联网公司f的流量占比,Nf表示指定用户ID在互联网公司f的所有源IP的总下行流量,B表示指定用户ID的总下行流量,f为大于或等于0的整数。
需要说明的是,在实际的应用中对于每个用户,将网络流量数据中的“源IP”字段与互联网公司进行关联,然后对“字节数”字段进行求和,得到每个互联网公司使用的总字节数,包括TCP和UDP协议的流量。互联网公司都有自己的源IP地址段,特别是大型的互联网公司,通常会申请一段很大的IP地址,所以可以使用“源IP”得到其所属于的互联网公司。
可选的,画像参数包括:业务流量占比Sg;根据用户下行流量中间数据,确定指定用户ID的画像参数,包括:
S1034、根据业务流量占比公式和用户下行流量中间数据,确定指定用户ID的业务流量占比Sg;其中,业务流量占比公式包括:
其中,Sg表示业务类型g的流量占比,Mg表示业务类型g的总下行流量,B表示指定用户ID的总下行流量,g为大于或等于0的整数。
需要说明的是,在实际的应用中对于每个用户,将网络流量数据“源IP”与业务类型(比如:新闻、视频、游戏等)进行关联,然后对“字节数”字段进行求和,得到用户使用业务的总字节数,包括TCP和UDP的流量。互联网上提供的IP地址库数据,能够提供该IP地址属于的业务类型,当然也可以通过其他方式(如爬虫公司和互联网业务拨测公司也通常保存了IP地址与业务的对应关系)来获取互联网公司的包含的源IP地址。
S104、根据画像参数,生成指定用户ID的用户画像。
需要说明的是,在实际的应用中为了更加准确的生成指定用户ID的用户画像,可以通过用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg来生成该指定用户ID的用户画像。
示例性的,根据数据关联分析模型,生成用户画像的五元组,即形成用户画像的标签;其中,数据关联分析模型包括:
(D,F,max{Pe},max{Cf},max{Sg});
其中,max表示取其中的最大值。
假设通过步骤S103得到的用网时长为60分钟,用网频率为5%,源端口80的流量占比为50%(为所有源端口流量占比中最大的源端口流量占),互联网公司(如网易)的流量占比为20%(为所有互联网公司的流量占比中最大的流量占比),业务流量(如视频流量)占比为15%(为所有业务流量占比中最大的业务流量占比),则该指定用户ID的用户画像为:(用网时长60分钟,用网频率5%,源端口80的流量占比50%,网易的流量占比20%,视频流量占比15%)。
由上述方案可知,通过基于运营支撑系统数据中的网络流量监控系统数据和AAA数据,从而可以确定每个指定用户ID的用户下行流量中间数据;进而可以根据任一个指定用户ID的用户下行流量中间数据确定对应该指定用户ID的画像参数,并根据该画像参数生成该指定用户ID的用户画像;由于本发明的实施例提供的用户画像的生成方法基于网络流量监控系统数据和AAA数据可以得到实时和准确的用户使用网络资源和网络业务的习惯和特征,因此生成的该指定用户ID的用户画像更加符合该用户的习惯和特征,解决了如何计算出每个用户的用户画像的问题。
实施例二
本发明的实施例提供一种用户画像的生成装置10,如图5所示包括:
获取单元101,用于获取网络流量监控系统数据和AAA数据;其中,网络流量监控系统数据包括源IP、目的IP、源端口、目的端口和字节数中的至少一项,AAA数据包括用户ID、公网IP、私网IP、开始端口和结束端口中的至少一项。
处理单元102,用于根据获取单元101获取的网络流量监控系统数据和AAA数据,确定指定用户ID的用户下行流量中间数据。
处理单元102,还用于根据用户下行流量中间数据,确定指定用户ID的画像参数;其中,画像参数包括用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg中的至少一项。
处理单元102,还用于根据画像参数,生成指定用户ID的用户画像。
可选的,处理单元102,具体用于确定获取单元101获取AAA数据中的指定用户ID的IP地址为公网IP时,筛选满足第一预设条件的目的IP,并根据筛选出的目的IP确定指定用户ID的用户下行流量中间数据;其中,第一预设条件包括目的IP与公网IP相同。
处理单元102,具体用于获取单元101获取的AAA数据中的指定用户ID的IP地址为私网IP时,筛选满足第二预设条件的目的IP,并根据筛选出的目的IP确定指定用户ID的用户下行流量中间数据;其中,第二预设条件包括目的IP与公网IP相同,公网IP与私网IP对应,并且a∈[b,c],a表示目的端口,b表示开始端口,c表示结束端口。
可选的,画像参数包括:用网时长D;处理单元102,具体用于根据用网时长公式和用户下行流量中间数据,确定指定用户ID的用网时长D;其中,用网时长公式包括:
其中,D表示用网时长,T表示单位时间长度,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0。
可选的,画像参数包括:用网频率F;处理单元102,具体用于根据用网频率公式和用户下行流量中间数据,确定指定用户ID的用网频率F;其中,用网频率公式包括:
其中,F表示用网频率,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0。
可选的,画像参数包括:源端口的流量占比Pe;处理单元102,具体用于根据源端口的流量占比公式和用户下行流量中间数据,确定指定用户ID的源端口的流量占比Pe;其中,源端口的流量占比公式包括:
其中,Pe表示指定用户ID在源端口e的流量占比,Be表示指定用户ID在源端口e的总下行流量,表示指定用户ID在全部源端口的总下行流量。
可选的,画像参数包括:互联网公司的流量占比Cf,每个互联网包括至少一个源IP;处理单元102,具体用于根据互联网公司的流量占比公式和用户下行流量中间数据,确定指定用户ID的互联网公司的流量占比Cf;其中,互联网公司的流量占比公式包括:
其中,Cf表示指定用户ID在互联网公司f的流量占比,Nf表示指定用户ID在互联网公司f的所有源IP的总下行流量,B表示指定用户ID的总下行流量。
可选的,画像参数包括:业务流量占比Sg;处理单元102,具体用于根据业务流量占比公式和用户下行流量中间数据,确定指定用户ID的业务流量占比Sg;其中,业务流量占比公式包括:
其中,Sg表示业务类型g的流量占比,Mg表示业务类型g的总下行流量,B表示指定用户ID的总下行流量。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
在采用集成的模块的情况下,用户画像的生成装置包括:存储单元、处理单元以及获取单元。处理单元用于对用户画像的生成装置的动作进行控制管理,例如,处理单元用于支持用户画像的生成装置执行图4中的过程S101、S102、S103和S104;获取单元用于支持用户画像的生成装置与其他设备的信息交互。存储单元,用于存储用户画像的生成装置的程序代码和数据。
其中,以处理单元为处理器,存储单元为存储器,获取单元为通信接口为例。其中,用户画像的生成装置参照图6中所示,包括通信接口501、处理器502、存储器503和总线504,通信接口501、处理器502通过总线504与存储器503相连。
处理器502可以是一个通用中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
存储器503可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器503用于存储执行本申请方案的应用程序代码,并由处理器502来控制执行。通讯接口501用于与其他设备进行信息交互,例如与遥控器的信息交互。处理器502用于执行存储器503中存储的应用程序代码,从而实现本申请实施例中所述的方法。
此外,还提供一种计算存储媒体(或介质),包括在被执行时进行上述实施例中的用户画像的生成装置执行的方法操作的指令。另外,还提供一种计算机程序产品,包括上述计算存储媒体(或介质)。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:read-only memory,英文简称:ROM)、随机存取存储器(英文全称:random access memory,英文简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解地,上述提供的任一种用户画像的生成装置用于执行上文所提供的实施例一对应的方法,因此,其所能达到的有益效果可参考上文实施例一的方法以及下文具体实施方式中对应的方案的有益效果,此处不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种用户画像的生成方法,其特征在于,包括:
获取网络流量监控系统数据和AAA数据;其中,所述网络流量监控系统数据包括源IP、目的IP、源端口、目的端口和字节数中的至少一项,所述AAA数据包括用户ID、公网IP、私网IP、开始端口和结束端口中的至少一项;
根据所述网络流量监控系统数据和所述AAA数据,确定指定用户ID的用户下行流量中间数据;
根据所述用户下行流量中间数据,确定所述指定用户ID的画像参数;其中,所述画像参数包括用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg中的至少一项;
根据所述画像参数,生成所述指定用户ID的用户画像。
2.根据权利要求1所述的用户画像的生成方法,其特征在于,根据所述网络流量监控系统数据和所述AAA数据,确定指定用户ID的用户下行流量中间数据,包括:
确定所述AAA数据中所述指定用户ID的IP地址为公网IP时,筛选满足第一预设条件的目的IP,并根据所述筛选出的目的IP确定所述指定用户ID的用户下行流量中间数据;其中,所述第一预设条件包括目的IP与公网IP相同;
确定所述AAA数据中的所述指定用户ID的IP地址为私网IP时,筛选满足第二预设条件的目的IP,并根据所述筛选出的目的IP确定所述指定用户ID的用户下行流量中间数据;其中,所述第二预设条件包括目的IP与公网IP相同,所述公网IP与所述私网IP对应,并且a∈[b,c],a表示目的端口,b表示开始端口,c表示结束端口。
3.根据权利要求1所述的用户画像的生成方法,其特征在于,所述画像参数包括:用网时长D;
根据所述用户下行流量中间数据,确定所述指定用户ID的画像参数,包括:
根据用网时长公式和所述用户下行流量中间数据,确定所述指定用户ID的用网时长D;其中,所述用网时长公式包括:
其中,D表示用网时长,T表示单位时间长度,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0。
4.根据权利要求1所述的用户画像的生成方法,其特征在于,所述画像参数包括:用网频率F;
根据所述用户下行流量中间数据,确定所述指定用户ID的画像参数,包括:
根据用网频率公式和所述用户下行流量中间数据,确定所述指定用户ID的用网频率F;其中,所述用网频率公式包括:
其中,F表示用网频率,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0。
5.根据权利要求1所述的用户画像的生成方法,其特征在于,所述画像参数包括:源端口的流量占比Pe
根据所述用户下行流量中间数据,确定所述指定用户ID的画像参数,包括:
根据源端口的流量占比公式和所述用户下行流量中间数据,确定所述指定用户ID的源端口的流量占比Pe;其中,所述源端口的流量占比公式包括:
其中,Pe表示指定用户ID在源端口e的流量占比,Be表示指定用户ID在源端口e的总下行流量,表示指定用户ID在全部源端口的总下行流量。
6.根据权利要求1所述的用户画像的生成方法,其特征在于,所述画像参数包括:互联网公司的流量占比Cf,每个互联网包括至少一个源IP;
根据所述用户下行流量中间数据,确定所述指定用户ID的画像参数,包括:
根据互联网公司的流量占比公式和所述用户下行流量中间数据,确定所述指定用户ID的互联网公司的流量占比Cf;其中,所述互联网公司的流量占比公式包括:
其中,Cf表示指定用户ID在互联网公司f的流量占比,Nf表示指定用户ID在互联网公司f的所有源IP的总下行流量,B表示指定用户ID的总下行流量。
7.根据权利要求1所述的用户画像的生成方法,其特征在于,所述画像参数包括:业务流量占比Sg
根据所述用户下行流量中间数据,确定所述指定用户ID的画像参数,包括:
根据业务流量占比公式和所述用户下行流量中间数据,确定所述指定用户ID的业务流量占比Sg;其中,所述业务流量占比公式包括:
其中,Sg表示业务类型g的流量占比,Mg表示业务类型g的总下行流量,B表示指定用户ID的总下行流量。
8.一种用户画像的生成装置,其特征在于,包括:
获取单元,用于获取网络流量监控系统数据和AAA数据;其中,所述网络流量监控系统数据包括源IP、目的IP、源端口、目的端口和字节数中的至少一项,所述AAA数据包括用户ID、公网IP、私网IP、开始端口和结束端口中的至少一项;
处理单元,用于根据所述获取单元获取的所述网络流量监控系统数据和所述AAA数据,确定指定用户ID的用户下行流量中间数据;
所述处理单元,还用于根据所述用户下行流量中间数据,确定所述指定用户ID的画像参数;其中,所述画像参数包括用网时长D、用网频率F、源端口的流量占比Pe、互联网公司的流量占比Cf和业务流量占比Sg中的至少一项;
所述处理单元,还用于根据所述画像参数,生成所述指定用户ID的用户画像。
9.根据权利要求8所述的用户画像的生成装置,其特征在于,所述处理单元,具体用于确定所述获取单元获取所述AAA数据中的指定用户ID的IP地址为公网IP时,筛选满足第一预设条件的目的IP,并根据所述筛选出的目的IP确定所述指定用户ID的用户下行流量中间数据;其中,所述第一预设条件包括目的IP与公网IP相同;
所述处理单元,具体用于所述获取单元获取的所述AAA数据中的指定用户ID的IP地址为私网IP时,筛选满足第二预设条件的目的IP,并根据所述筛选出的目的IP确定所述指定用户ID的用户下行流量中间数据;其中,所述第二预设条件包括目的IP与公网IP相同,所述公网IP与所述私网IP对应,并且a∈[b,c],a表示目的端口,b表示开始端口,c表示结束端口。
10.根据权利要求8所述的用户画像的生成装置,其特征在于,所述画像参数包括:用网时长D;
所述处理单元,具体用于根据用网时长公式和所述用户下行流量中间数据,确定所述指定用户ID的用网时长D;其中,所述用网时长公式包括:
其中,D表示用网时长,T表示单位时间长度,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0。
11.根据权利要求8所述的用户画像的生成装置,其特征在于,所述画像参数包括:用网频率F;
所述处理单元,具体用于根据用网频率公式和所述用户下行流量中间数据,确定所述指定用户ID的用网频率F;其中,所述用网频率公式包括:
其中,F表示用网频率,n表示指定时间段被分成单位时间长度的个数,xi表示第i个单位时间长度内是否有下行流量数据,若第i个单位时间长度内有下行流量数据则xi=1,若第i个单位时间长度内无下行流量数据则xi=0。
12.根据权利要求8所述的用户画像的生成装置,其特征在于,所述画像参数包括:源端口的流量占比Pe
所述处理单元,具体用于根据源端口的流量占比公式和所述用户下行流量中间数据,确定所述指定用户ID的源端口的流量占比Pe;其中,所述源端口的流量占比公式包括:
其中,Pe表示指定用户ID在源端口e的流量占比,Be表示指定用户ID在源端口e的总下行流量,表示指定用户ID在全部源端口的总下行流量。
13.根据权利要求8所述的用户画像的生成装置,其特征在于,所述画像参数包括:互联网公司的流量占比Cf,每个互联网包括至少一个源IP;
所述处理单元,具体用于根据互联网公司的流量占比公式和所述用户下行流量中间数据,确定所述指定用户ID的互联网公司的流量占比Cf;其中,所述互联网公司的流量占比公式包括:
其中,Cf表示指定用户ID在互联网公司f的流量占比,Nf表示指定用户ID在互联网公司f的所有源IP的总下行流量,B表示指定用户ID的总下行流量。
14.根据权利要求8所述的用户画像的生成装置,其特征在于,所述画像参数包括:业务流量占比Sg
所述处理单元,具体用于根据业务流量占比公式和所述用户下行流量中间数据,确定所述指定用户ID的业务流量占比Sg;其中,所述业务流量占比公式包括:
其中,Sg表示业务类型g的流量占比,Mg表示业务类型g的总下行流量,B表示指定用户ID的总下行流量。
15.一种计算机存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述权利要求1-7任一项所述的用户画像的生成方法。
16.一种用户画像的生成装置,包括:通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接,当用户画像的生成装置运行时,处理器执行存储器存储的计算机执行指令,以使用户画像的生成装置执行如上述权利要求1-7任一项所述的用户画像的生成方法。
CN201811386597.2A 2018-11-20 2018-11-20 一种用户画像的生成方法和装置 Active CN109327356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811386597.2A CN109327356B (zh) 2018-11-20 2018-11-20 一种用户画像的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811386597.2A CN109327356B (zh) 2018-11-20 2018-11-20 一种用户画像的生成方法和装置

Publications (2)

Publication Number Publication Date
CN109327356A true CN109327356A (zh) 2019-02-12
CN109327356B CN109327356B (zh) 2020-10-27

Family

ID=65257794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811386597.2A Active CN109327356B (zh) 2018-11-20 2018-11-20 一种用户画像的生成方法和装置

Country Status (1)

Country Link
CN (1) CN109327356B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098741A (zh) * 2021-04-16 2021-07-09 深圳市炆石数据有限公司 家庭画像构建方法、系统、存储介质及广告跨屏投放方法
CN113098791A (zh) * 2021-03-30 2021-07-09 中山大学 一种多业务网络流的成分占比分析方法
CN113127751A (zh) * 2019-12-30 2021-07-16 中移(成都)信息通信科技有限公司 用户画像构建方法、装置、设备及计算机可读存储介质
CN114466398A (zh) * 2021-12-20 2022-05-10 中盈优创资讯科技有限公司 一种通过netflow数据分析5G终端用户行为的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296256A (zh) * 2008-06-19 2008-10-29 中国电信股份有限公司 一种利用互联网实现信息精确推送的方法及系统
WO2015067376A1 (en) * 2013-11-11 2015-05-14 Telefonaktiebolaget L M Ericsson (Publ) Port selection in combined cell of radio access network
CN107948015A (zh) * 2017-11-29 2018-04-20 中国联合网络通信集团有限公司 一种服务质量分析方法、装置及网络系统
CN108462888A (zh) * 2018-03-14 2018-08-28 江苏有线数据网络有限责任公司 用户电视及上网行为的智能关联分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296256A (zh) * 2008-06-19 2008-10-29 中国电信股份有限公司 一种利用互联网实现信息精确推送的方法及系统
WO2015067376A1 (en) * 2013-11-11 2015-05-14 Telefonaktiebolaget L M Ericsson (Publ) Port selection in combined cell of radio access network
CN107948015A (zh) * 2017-11-29 2018-04-20 中国联合网络通信集团有限公司 一种服务质量分析方法、装置及网络系统
CN108462888A (zh) * 2018-03-14 2018-08-28 江苏有线数据网络有限责任公司 用户电视及上网行为的智能关联分析方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127751A (zh) * 2019-12-30 2021-07-16 中移(成都)信息通信科技有限公司 用户画像构建方法、装置、设备及计算机可读存储介质
CN113127751B (zh) * 2019-12-30 2023-10-27 中移(成都)信息通信科技有限公司 用户画像构建方法、装置、设备及计算机可读存储介质
CN113098791A (zh) * 2021-03-30 2021-07-09 中山大学 一种多业务网络流的成分占比分析方法
CN113098791B (zh) * 2021-03-30 2022-05-06 中山大学 一种多业务网络流的成分占比分析方法
CN113098741A (zh) * 2021-04-16 2021-07-09 深圳市炆石数据有限公司 家庭画像构建方法、系统、存储介质及广告跨屏投放方法
CN114466398A (zh) * 2021-12-20 2022-05-10 中盈优创资讯科技有限公司 一种通过netflow数据分析5G终端用户行为的方法及装置

Also Published As

Publication number Publication date
CN109327356B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN109327356A (zh) 一种用户画像的生成方法和装置
US10917319B2 (en) MDL-based clustering for dependency mapping
US8935389B2 (en) Method and system for collecting and managing network data
Isolani et al. Interactive monitoring, visualization, and configuration of OpenFlow-based SDN
WO2019133763A1 (en) System and method of application discovery
US8391157B2 (en) Distributed flow analysis
KR101079786B1 (ko) 병렬 연산에 의한 플로우 데이터 분석 방법
Willinger et al. A pragmatic approach to dealing with high-variability in network measurements
CN110233769A (zh) 一种流量检测方法和流量检测设备
KR20080031177A (ko) 분산 트래픽 분석
EP4193287A1 (en) Systems and methods for application placement in a network based on host security posture
EP3596884B1 (en) Communications network performance
EP4165532B1 (en) Application protectability schemes for enterprise applications
Mohammadi et al. Taxonomy of traffic engineering mechanisms in software-defined networks: a survey
Pekar et al. Towards threshold‐agnostic heavy‐hitter classification
WO2022010647A1 (en) Systems and methods for determining effectiveness of network segmentation policies
CN103347195B (zh) 一种监测评估视频质量的系统及方法
Ehrlich et al. Quality-of-Service monitoring of hybrid industrial communication networks
JP4871775B2 (ja) 統計情報収集装置
CN109379227A (zh) 一种策略管理方法及装置、通信系统
CN108183892A (zh) 报文处理方法及装置
Zhang et al. User oriented ip accounting in multi-user systems
Jiang et al. A Multi-service Traffic Generation System for Emulation of Space Information Networks
Deng Comparing ISP broadband performance using M-Lab data.
Taute Leveraging Software-Defined Networking for QoS in home networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant