CN101561825B - 媒体技术平台系统、数据采集系统和网络内容提供方法 - Google Patents

媒体技术平台系统、数据采集系统和网络内容提供方法 Download PDF

Info

Publication number
CN101561825B
CN101561825B CN2009101438953A CN200910143895A CN101561825B CN 101561825 B CN101561825 B CN 101561825B CN 2009101438953 A CN2009101438953 A CN 2009101438953A CN 200910143895 A CN200910143895 A CN 200910143895A CN 101561825 B CN101561825 B CN 101561825B
Authority
CN
China
Prior art keywords
data
terminal user
user
subsystem
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101438953A
Other languages
English (en)
Other versions
CN101561825A (zh
Inventor
王强
熊宇光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGSHU YISHENG COMMODITY Co.,Ltd.
Original Assignee
BEIJING MAXIT TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING MAXIT TECHNOLOGY Co Ltd filed Critical BEIJING MAXIT TECHNOLOGY Co Ltd
Priority to CN2009101438953A priority Critical patent/CN101561825B/zh
Publication of CN101561825A publication Critical patent/CN101561825A/zh
Application granted granted Critical
Publication of CN101561825B publication Critical patent/CN101561825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种媒体技术平台系统、数据采集系统和网络内容提供方法。该媒体技术平台系统包括:数据采集子系统,用于根据终端用户的统一个人标识采集终端用户的网上行为数据;数据存储子系统,用于接收来终端用户的网上行为数据,存储根据终端用户的网上行为数据获得的终端用户的偏好信息;数据驱动子系统,用于根据终端用户的偏好信息为终端用户提供个性化内容信息。本发明媒体技术平台系统、数据采集系统和网络内容提供方法提出并实现了基于电信互联网环境的对个人用户的网上活动数据采集与行为分析,得到了对单个用户的行为特征和需求偏好的完整刻画,并为互联网网站提供了智能化的广告产品服务和个性化的信息内容服务。

Description

媒体技术平台系统、数据采集系统和网络内容提供方法
技术领域
本发明涉及网络数据技术,尤其涉及一种媒体技术平台系统、数据采集系统和网络内容提供方法。
背景技术
随着网络技术的快速发展,互联网上信息资源的数量急剧增长,上网用户群体不断扩大。以互联网为代表的信息技术日益深入到人们的日常生活中,为人们生活各个方面提供全方位的信息服务。在互联网环境中,终端用户希望获取自己感兴趣的信息或内容,内容服务提供商希望通过其网站为终端用户提供投其所好的产品和服务,以实现其商业价值。由于不同的用户有着不同的目的和不同的喜好,网站面对的是数目众多差异巨大的用户群体。为这样的群体提供满意的产品和服务,无论从内容产品上还是从技术手段上都是一个巨大的挑战。
为了让用户方便地获得所需信息,并提升用户体验和黏性,现有技术的解决方案多是各个网站根据用户在该网站上的账户信息和浏览记录为用户提供了定制化的内容服务。
但是,现有技术以网站为基础的解决方案存在如下问题:用户行为数据被网站分割为孤岛,对用户特征偏好的刻画因网站而异,标准和内容各不相同,无法形成对用户网上活动的统一描述;各个网站提供的服务仅仅基于用户在该网站上的行为活动,而无法包括该网站以外的用户所访问的其它信息资源,因而无法反映出用户全方位多样化的真实需求;各异的刻画标准和局限的活动数据导致了无法形成对用户在其整个网上活动的生命周期中以内容偏好、时间地点、相互关联等方面为特征的完整描述。
而在接入网络范围内采集用户数据,并由此提供基于用户的定制化内容和服务,存在很多技术的难题和挑战。
发明内容
本发明要解决的一个技术问题提供一种媒体技术平台系统,能够基于接入网络范围内的用户网络行为来提供基于用户偏好的定制化内容服务。
本发明的一个方面提供一种媒体技术平台系统,包括:数据采集子系统、数据存储子系统、数据分析子系统和数据驱动子系统,其中:
数据采集子系统,用于根据终端用户的统一个人标识采集所述终端用户的网上行为数据,并将所述终端用户的网上行为数据发送给数据存储子系统;
数据存储子系统,用于接收所述数据采集子系统发送的所述终端用户的网上行为数据,并存储所述终端用户的网上行为数据;将所述终端用户的网上行为数据发送给数据分析子系统;
数据分析子系统,用于接收所述数据存储子系统发送的所述终端用户的网上行为数据,根据所述终端用户的网上行为数据生成所述终端用户的偏好信息,将所述终端用户的偏好信息发送给数据驱动子系统;
数据驱动子系统,用于接收所述数据分析子系统发送的所述终端用户的偏好信息,根据所述终端用户的偏好信息为所述终端用户提供个性化内容信息;
其中所述数据采集子系统包括:IP数据包捕获模块、数据流重组模块、超文本传输协议HTTP数据筛选模块和内容提取模块,其中:
IP数据包捕获模块,用于根据至少所述终端用户的媒体访问控制MAC地址筛选出需要捕获的数据链路层数据帧,从所述需要捕获的数据链路层数据帧中提取IP数据包,将所述IP数据包发送给数据流重组模块;
数据流重组模块,用于接收所述IP数据包捕获模块发送的IP数据包,根据传输层协议将所述IP数据包重组成传输层会话数据流,并将所述传输层会话数据流发送给HTTP数据筛选模块;
HTTP数据筛选模块,用于接收所述数据流重组模块发送的传输层会话数据流,从所述传输层会话数据流中筛选出HTTP会话数据,并将所述HTTP会话数据发送给内容提取模块;
内容提取模块,用于接收所述HTTP数据筛选模块发送的HTTP会话数据,根据超文本标记语言HTML协议解析出用户网上行为数据。
根据本发明的另一方面,提供一种网络内容提供方法,其特征在于,包括:
通过电信网络环境根据各个终端用户的统一个人标识采集所述终端用户的网上行为数据;
根据所述终端用户的网上行为数据获得的所述终端用户的偏好信息;
根据所述终端用户的偏好信息为所述终端用户提供个性化内容信息;
其中所述通过电信网络环境根据终端用户的统一个人标识采集所述终端用户的网上行为数据步骤包括:
在电信网络接入位置根据所述终端用户的MAC地址筛选出需要捕获的数据链路层数据帧,从所述需要捕获的数据链路层数据帧中提取IP数据包;
根据所述IP数据包内的IP和端口信息将数据包重组为TCP会话数据流;
根据HTTP协议从TCP会话数据流中筛选出HTTP协议会话数据;
根据HTML协议从HTTP协议会话数据中筛选出所述终端用户的网上行为数据。
本发明的媒体技术平台系统、数据采集系统和网络内容提供方法,全方位地采集和分析终端用户的网上行为数据,并推断其个人偏好特征,为网站提供了与用户偏好匹配的广告产品服务或信息内容服务。
本发明的系统和方法基于电信互联网环境的对个人用户的网上活动数据采集与行为分析,得到了对单个终端用户的行为特征和需求偏好的完整刻画,为网站提供了智能化的广告产品服务和个性化的信息内容服务。
附图说明
图1是本发明的媒体技术平台系统的一个实施例的框图;
图2是本发明的媒体技术平台系统的另一个实施例的框图;
图3是本发明的媒体技术平台系统的一个实施例的分布式系统示意图;
图4是本发明的数据采集子系统的一个实施例的框图;
图5是本发明的数据采集子系统的一个实施例的数据流示意图;
图6是本发明的数据分析子系统的一个实施例的数据流示意图;
图7是本发明的网络内容提供方法的一个实施例的流程图;
图8是本发明的网络内容提供方法的数据采集子系统流程图;
图9是本发明的数据采集子系统的一个实施例的IP数据包捕获和TCP数据流重组的流程示意图;
图10是本发明的网络内容提供方法的一个应用例的流程图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。在附图中,相同的标号表示相同或者相似的组件或者元素。
图1是本发明的媒体技术平台系统的一个实施例的框图。如图1所示,媒体技术平台系统100包括数据采集子系统11、数据存储子系统12和数据驱动子系统13。其中,数据采集子系统11根据终端用户的统一个人标识采集各个终端用户的网上行为数据,将采集的终端用户的网上行为数据发送到数据存储子系统12。例如,数据采集子系统11通过电信网络环境根据终端用户的统一个人标识采集各个终端用户的网上行为数据,终端用户的统一个人标识可以是终端用户所使用的上网设备特征标识,例如计算机用户的计算机以太网卡的媒体访问控制(MediaAccess Control,MAC)地址、手机用户的手机设备的国际移动设备标识(International Mobile Equipment Identity,IMEI)序列号等。终端用户的网上行为数据例如是用户浏览的网页中包括的文本、图像、音频、视频等内容。数据存储子系统12,用于接收来自数据采集子系统11的终端用户的网上行为数据,存储根据终端用户的网上行为数据获得的终端用户的偏好信息。数据存储子系统12也可以存储接收的终端用户的网上行为数据的历史记录。数据驱动子系统13,用于从数据存储子系统12获得终端用户的偏好信息,根据终端用户的偏好信息为终端用户生成个性化内容信息。例如,为不同的终端用户提供不同的网页,该网页中包括与终端用户的偏好信息相对应的广告内容。
终端用户的偏好信息是对终端用户在各个需求偏好方面的量化描述,需求偏好的具体类别可以根据业务的应用领域而确定。例如,为了考察个人用户在旅游方面的个人偏好,可以按照旅游的休闲性质分为度假游、观光游、和探险游。设想有如下两个用户A和B,他们的个人偏好如下表1所示:
  个人用户/旅游偏好   度假游   观光游   探险游
  用户A   3   9   6
  用户B   8   6   1
表1
从表1中的数据可以看出用户A喜欢观光游,其次是探险游;而用户B最喜欢度假游,其次是观光游,而对探险游基本不感兴趣。另外,在其它条件都相同的情况下,不同用户的个人偏好分值可以进行直接比较,不同用户在同一偏好类型上的不同分值反映了用户在这一类型上的个人差异,因此个人偏好的量化程度在这样的条件下具有绝对意义。比如说用户A比用户B在旅游选择上更富冒险性,同时用户A对旅游的整体偏好(18分)也比用户B要高(15分)。这样,在为用户A提供网页时,可以在网页中定制与观光游相关的内容或者广告,而为用户B提供网页时,可以在网页中定制与度假游相关的内容或者广告。
根据本发明的媒体技术平台系统的一个实施例,数据采集子系统包括多个位于电信网络接入位置的数据采集节点,数据采集节点根据终端用户的统一个人标识采集各个终端用户的网上行为数据,其中,终端用户的统一个人标识为终端用户的上网设备特征标识。
根据本发明的数据采集子系统的一个实施例,将数据采集设备的网卡驱动程序的工作方式设置为轮询模式。在电信网络核心层接入节点上进行数据采集给采集系统运行带来的一个重要影响是CPU频繁地被网卡驱动程序中断,以读取网络数据。因为Gbps数量级的数据带宽与GHz的CPU时钟频率处在同一数量级上,这种以中断方式工作的驱动程序在电信网络核心层的数据流量情况下将耗费大量CPU处理能力。将数据采集设备的网卡驱动程序的工作方式设置为轮询,可以提高数据采集效率并降低丢包率,并最大化CPU利用效率。
本发明的媒体技术平台系统可以基于电信运营商的网络环境实施,以在电信运营商的网络环境中采集到的终端用户所使用的上网设备特征标识来区别各个终端用户,这样的统一个人标识可以从电信运营商的网络环境中获取,对终端用户的标识不受网络接入点和所访问网络资源的限制,在有效标识终端用户方面具有很大的优势。所选标识信息仅代表了终端用户所使用的上网设备,可以不包含用户隐私信息,保护了用户隐私。
图2是本发明的媒体技术平台系统的另一个实施例的系统示意图。如图2所示,该实施例的媒体技术平台系统200包括数据采集21、数据存储22、数据分析24、和数据驱动23四个子系统。其中,数据采集子系统21从电信网络25采集终端用户在互联网上的浏览活动数据,对浏览获得数据进行处理后将数据传输至远程的数据存储子系统22,其网络引擎21a将电信网络中的原始网络数据流进行IP(Internet Protocol,网间协议)捕获、TCP(Transmission Control Protocol,传输控制协议)重组、HTTP(HyperText Transfer Protocol,超文本传输协议)解析、HTML(Hypertext Markup Language,超文本标记语言)提取等一系列操作处理,最后得到反映终端用户网上浏览行为活动的终端用户的网上行为数据。数据存储子系统22采用数据库集群存储从电信网络25采集到的用户网上行为数据。数据存储子系统22还可以用于存储对用户的网上行为数据进行数据分析过程中产生的中间数据、最终分析结果、以及终端用户的偏好信息,为数据驱动子系统23提供结果查询服务。数据存储子系统22的数据库引擎22a用于构建存储各种用户网上行为数据以及提供各种数据应用服务的数据仓库系统,它包括网关交换机、数据库服务器、存储设备网络等组成部分,它的功能包括终端用户的网上行为数据的存储、数据挖掘的ETL过程、数据分析临时结果的存储、最终分析结果的存储、数据驱动服务支持等。数据分析子系统24采用商业智能方法对终端用户的网上行为数据进行量化分析,得到由用户网上行为反映出的个人偏好以及与之匹配广告产品,其计算引擎24a采用商业智能数据挖掘算法模型对终端用户在互联网上的网上行为数据进行深入分析,得到每个网上用户的各种行为模式、变化规律、影响因素等量化指标,进而推断出其个人偏好特征,并找出与之匹配的广告或者产品内容。数据驱动子系统23为互联网网站提供为终端用户定制化的广告产品实时数据服务,其展现引擎23a采用基于Web Service概念的网站互连和数据交换技术为各类互联网网站提供了根据终端用户偏好进行实时定制的动态网站页面,页面中包含了为单个用户进行精确匹配的广告或者产品内容。
在本发明的上述MTP的实施例中,MTP的数据采集、存储、分析、和驱动四个子系统以终端用户网上行为数据为纽带连接形成一条数据处理的流水线,将终端用户网上活动原始数据转化成与每个终端用户相匹配的产品内容信息服务。
本分明的MTP的一个实施例,采用分布式高互连的系统架构来支持其功能,以便支持从电信网络中实时获取数量巨大的用户上网行为数据、即时处理这些数据、实现为互联网网站提供实时的用户偏好内容查询服务。图3是本发明的媒体技术平台系统的一个实施例的分布式系统示意图。如图3所示,数据采集子系统实时地采集和预处理用户的上网行为数据,它包括数据采集、数据预处理、和数据缓存模块。每个数据采集子系统作为MTP的一个数据采集节点部署在电信网络接入位置;数据分析子系统对预处理后的用户行为数据进行深度分析并获得用户的需求偏好结果,部署在MTP的数据中心;数据驱动子系统实时地响应网站的查询请求并返回用户偏好内容结果,它以web service的方式部署在MTP数据中心和网站服务器上。
数据采集子系统包括分布于电信网络中不同接入位置上的大量数据采集服务器,以处理数目庞大的互联网用户以及他们产生的流量巨大的网上活动原始数据。各个MTP子系统紧密配合以共同完成设计功能,快速高效地处理这些原始数据,为数众多的互联网网站提供实时可靠数据服务。
区别于现有技术中常用的数据包采集方法,本发明的MTP在电信运营商的网络环境中不仅要实时地采集数据链路层和网络层的原始数据包,还要实时地还原传输层和表示层的数据内容,进而实现根据表示层协议对数据内容进行实时的内容解析。下面结合附图和实施例对本发明的数据采集子系统进行详细的描述。
图4是本发明的数据采集子系统的一个实施例的框图。如图4所示,该数据采集子系统400包括IP数据包捕获模块41、数据流重组模块42、HTTP数据筛选模块43和内容提取模块44。其中,IP数据包捕获模块41用于捕获数据链路层中的数据帧,例如以太帧、点对点以太帧、光纤帧等,提取数据链路层数据帧中位于媒体访问控制子层信息中与用户的网络接入有关的参数,例如上网设备特征标识、地理位置等,根据至少MAC地址筛选出需要捕获的数据链路层数据帧,从需要捕获的数据帧中提取IP数据包,将提取的IP数据包发送给数据流重组模块42。数据流重组模块42,用于接收来自IP数据包捕获模块41的IP数据包,根据传输层协议(例如TCP、UDP(User Datagram Protocol,用户数据报协议)、SCTP(Stream Control Transmission Protocol,流控制传输协议)等)将各个终端用户的IP数据包重组成传输层会话数据流,将传输层会话数据流发送到HTTP数据筛选模块43。HTTP数据筛选模块43,用于接收来自数据流重组模块42的终端用户的传输层会话数据流,从传输层会话数据流中筛选出HTTP会话数据,发送HTTP会话数据到内容提取模块44。内容提取模块44,用于接收来自所述HTTP数据筛选模块的HTTP会话数据,根据HTML协议解析出用户网上行为数据。用户网上行为数据可以包括文字、图像、音频、视频等数据信息。例如,内容提取模块44按照HTML协议提取出HTTP会话数据中的超链接文字标题,并存放在共享的超链接文本缓冲区(Hyperlinked Text Buffer)里。MTP的数据采集子系统将这些超链接文字及时地传回数据存储子系统,并按照终端用户的统一标识信息分别存放,这些数据代表了终端用户的真实的上网行为活动情况。
本发明的MTP实时地从电信运营商的网络环境中捕获终端用户的网上活动所产生的海量原始数据,根据各个层次上的网络协议逐层解析各层数据包,最终获得重建反映用户上网行为的内容数据。本发明的MTP的一个实施例采用共享内存的多线程方式并行地来捕获和解析数据。
图5是本发明的数据采集子系统的一个实施例的数据流示意图。
如图5所示,在步骤51,从数据链路层捕获IP数据包。根据指定的MAC地址、采样频率、以及其它网络接入参数来过滤筛选出需要捕获的原始数据链路层数据包并提取出包含的IP数据包。MTP能够识别多种数据链路层的数据帧格式,包括以太帧、拨号上网的点对点以太帧、无线局域网帧、虚拟局域网帧、光纤帧等。在电信网络核心层接入节点上的数据流量很大,其带宽数量级约为100Gbps,数据通过多条网络连接通道接入数据采集设备的多个例如10Gpbs以太网络(10 GigabitEthernet,10GE)接口上。MTP同时从多个网络接口上捕获数据链路帧,提取出数据帧中包含的IP数据包,并放入共享的IP数据包缓冲区(IP Packet Buffer)里。
在步骤52,根据IP数据包内的IP和端口信息将数据包重组为TCP会话数据流。MTP的TCP数据流重组一方面遵循TCP标准协议规定的重组过程,另一方面MTP被设计有高效的算法来完成大量的TCP会话数据流的重组工作,以处理在电信网络核心层接入节点上数量巨大的TCP会话。否则可能造成已有TCP会话不能及时重组,而且不能及时在IP数据包缓冲区中腾出地方存放新捕获的数据包,造成丢包。本发明的MTP的一个实施例根据指定的IP地址、TCP/UDP端口、表示层数据协议格式经验规则来确定需要重组的TCP/UDP数据流;然后MTP并行地完成为数众多的TCP/UDP数据流重组。在电信网络环境中存在属于众多终端用户的大量TCP/UDP数据流,而且同一数据流所包含的IP数据包可能会经不同的网络连接线路经过多个网络接口进入数据采集设备,因此本发明的MTP共享的IP数据包存缓冲区里按照MAC地址、IP地址、和TCP/UDP通讯端口将TCP/UDP数据流分组,同组的IP数据包被交给同一个处理器核心,多条TCP/UDP数据流被均匀分配到不同处理器核心上进行TCP/UDP重组。生成的TCP/UDP数据流被放入共享的TCP/UDP数据流缓冲区(TCP/UDPStream Buffer)内。
在步骤53,从TCP会话数据流中筛选出HTTP协议会话数据。由于HTTP的1.1版协议支持多个HTTP会话数据共用同一个TCP会话过程,所以每条TCP会话数据流包含多个HTTP会话数据。本发明的MTP的一个实施例从TCP会话数据流中把每个HTTP会话数据各自分离开来。按照最大并行化原则,MTP将多条TCP会话数据流的分离工作均匀地分配到不同处理器核心上,生成的HTTP会话数据被放入共享的HTTP数据会话缓冲区(HTTP Session Buffer)内。同时只有内容为TEXT/HTML类型的HTTP数据才会被提取出来放在缓冲区中。
在步骤54,从HTTP协议数据中筛选出HTML文本并提取超链接文字。MTP将HTTP数据会话缓冲区存放的HTTP会话数据并行地分配给不同的处理器核心按照HTML协议提取出会话数据中的超链接文字标题,并存放在共享的超链接文本缓冲区(Hyperlinked TextBuffer)里。MTP的数据采集子系统会将这些超链接文字及时地传回数据存储子系统中按照用户的个人标识信息分别存放,这些数据代表了个人用户的真实上网行为活动情况。
下面介绍数据分析子系统根据终端用户的上网行为数据获得终端用户的偏好信息。
图6是本发明的数据分析子系统的一个实施例的数据流示意图。如图6所示,在时刻1来自区域1和区域2的各个用户(用户1、用户2、...、用户m)的数据记录被分配到不同的处理器1、2、...、m+1、m+2分别进行分析处理,分析获得数据和用户偏好信息被存储在数据存储子系统中。
根据本发明的MTP的一个实施例,数据分析子系统采用模式匹配和识别的方法分析终端用户的网上行为数据,对文字、图像、音频、和/或视频数据进行分析,计算出量化的个人偏好,获得量化的终端用户偏好特征。模式匹配和识别是根据业务知识或者统计规律对各种文字、图像、音频、视频等类型的数据信息进行按照设定的标准进行匹配和识别的分类方法。模式匹配是根据已知的模式对数据进行归类以得到数据的模式类别,而模式识别则是根据原始数据的特征和一定的规则方法从原始数据中发现数据所蕴含的模式,然后将数据按照所获得的模式进行归类。下面详细介绍如何根据文字信息和图像信息获得终端用户的偏好的一种具体实现。
对于从文字信息计算个人偏好,本发明的MTP的一个实施例采用关键词匹配的方法从个人用户浏览过的文字信息中计算用户在各种个人偏好类别上的量化程度。具体步骤包括:(1)按照业务应用定义一组用户偏好类型,并为每个类别定义一组关键词;(2)在统计用户浏览内容中寻找与匹配的偏好类别的关键词,如果发现匹配,则将该用户在匹配的关键词所对应的偏好类别的匹配次数加1;(3)对所有偏好类别和所有用户重复上一步过程,得到所有用户在所有偏好类型上的匹配次数,然后将这个次数除以总匹配次数就得到一个对用户个人偏好程度的量化描述,该偏好程度介于0和1之间。
例如一个用户在一段时间的浏览中包含了150个属于度假游的关键词、70个属于观光游的关键词、以及10个属于探险游的关键词,那么这个用户在旅游方面的个人偏好就可以用相应类别的关键词出现的次数表示为(0.65,0.30,0.04)。
需要指出,上述文字数据处理过程中提到的关键词实际上是为不同偏好类别预先定义的特征文字,用于对用户浏览内容进行匹配和分类。
对于从图像信息计算个人偏好,本发明的MTP的一个实施例采用统计学方法来分析图像数据中所包含的个人偏好程度。具体步骤包括:(1)按照业务应用定义一组用户偏好类型,并为每个类别定义选择一组能够反映这个个人偏好类别的参考图像;(2)采用统计学中的主成分分析方法计算每个参考图像的一组本征向量,确定每个偏好类型的所有本征向量组,并规定所有本征向量组含有的本征向量个数相同;(3)计算用户浏览图像的一组本征向量;(4)计算用户浏览图像的本征向量组与每个用户偏好类型中所有参考图像的本征向量组之间的距离,规定两个本征向量组之间的距离是两组中每对对应本征向量的距离之和,并取其中的最短距离dmin为该用户到每个用户偏好类型的距离;(5)用户对每个类型的偏好程度可以用1/(dmin+1)表示,偏好程度介于0和1之间。
需要注意,虽然在上面单独介绍了根据文字信息和图像信息获得用户的偏好信息的实施例,本领域的技术人员可以理解,也可以根据视频、音频等其他信息来获得终端用户的偏好信息,或者根据多个信息的组合来获得终端用户的偏好信息。
下面举例说明数据驱动子系统根据终端用户的偏好信息为终端用户提供个性化内容或者产品服务。
本发明的MTP能够根据终端用户的偏好信息为互联网网站提供定制化和个性化的页面内容驱动服务,使得网站能够为终端用户动态实时地呈现与其个人偏好相匹配的产品和内容,既使得访问网站的个人用户能够获得与其行为习惯和需求偏好相匹配的页面内容从而提升用户体验,又能够让网站为不同用户提供定制化和个性化的信息产品和服务从而为网站带来商业价值。例如,网站可以根据MTP提供的终端用户的偏好信息推出用户感兴趣的广告产品,以提高广告产品点击率;网站可以根据个人用户的历史记录、行为意图、需求偏好、并结合当前场景信息(比如时间、地点、联网方式、周边环境)提供最可能满足用户当前需求或者潜在意图的产品选择,帮助和引导用户进行购买决策;网站还可以根据个人用户的行为习惯和需求偏好为用户定制页面本身的内容主题和呈现形式,以提升用户体验和加强用户黏性;不同网站还可以使用不同查询条件参数来从MTP得到符合各个网站自身需求的特色化的内容服务技术,以最大化网站的内容服务效果。
根据本发明的MTP的一个实施例,其具体步骤包括:(1)数据驱动子系统实时获取终端用户的上网信息,即用户与MTP的客户网站进行直接通信的cookie数据;(2)根据cookie数据中的字段值查询数据存储子系统,得到与相应cookie对应的用户的个人标识;(3)从数据存储子系统中获取用户个人标识所对应的用户偏好特征数据,并根据从电信网络中得到的用户上网场景信息(比如时间、区域等)实时调整偏好程度以反映用户的实时需求偏好;(4)为网站提供用户的量化的需求偏好数据,并由网站根据此数据实时定制其页面内容和广告产品。其中,MTP可以根据具体业务应用确立的经验规则来决定如何根据用户上网的场景信息调整用户偏好,例如在工作日早晨上网的用户可能需要交通天气方面的即时信息,在居民区晚上上网的用户可能需要娱乐休闲方面的信息。
为了使网站能够根据用户偏好特点为个人用户提供及时的、定制化、和个性化的内容服务技术,本发明的MTP的一个实施例提供根据对用户上网行为的分析结果并结合网站特点和需求构建一套实时的、动态的、和高效的页面内容驱动方案。具体实现方法包括:实时获取终端用户的统一个人标识和对网站的连接访问数据;获得网站对指定用户所感兴趣的内容和产品的查询请求;快速响应网站请求为网站提供指定用户所感兴趣的内容和产品资料;支持以不同的查询条件参数来获得不同的个人用户与页面内容的匹配结果。
图7是本发明的网络内容提供方法的一个实施例的流程图。
如图7所示,在步骤702,通过电信网络环境根据终端用户的统一个人标识采集终端用户的网上行为数据。终端用户的统一个人标识可以是终端用户所使用的上网设备特征标识,例如计算机用户的计算机以太网卡的MAC地址、手机用户的手机设备的IMEI序列号等。终端用户的网上行为数据例如是文本、图像、音频、视频等内容。
在步骤704,根据终端用户的网上行为数据获得的终端用户的偏好信息。采用模式匹配和识别的方法分析终端用户的网上行为数据,获得终端用户的偏好信息。
在步骤706,根据终端用户的偏好信息为终端用户生成个性化内容信息。例如,网站根据MTP提供的终端用户的偏好信息推出用户感兴趣的广告产品,根据个人用户的历史记录、行为意图、需求偏好、并结合当前场景信息提供最可能满足用户当前需求或者潜在意图的产品选择,或者根据个人用户的行为习惯和需求偏好为用户定制页面本身的内容主题和呈现形式,以提升用户体验和加强用户黏性等。
图8是本发明的网络内容提供方法的数据采集子流程图。
如图8所示,在步骤802,在电信网络接入位置根据终端用户的MAC地址从数据链路层捕获IP数据包;
在步骤804,根据IP数据包内的IP和端口信息将数据包重组为TCP会话数据流;
在步骤806,根据HTTP协议从TCP会话数据流中筛选出HTTP协议会话数据;
在步骤808,从HTTP协议会话数据中筛选出终端用户的网上新闻数据,例如HTML文本等。
图9示出本发明MTP的数据采集子系统的一个实施例的IP数据包捕获和TCP数据流重组的流程示意图。
如图9所示,在步骤902,通过三个数据链路帧捕获线程来从三个相应的网络接口捕获IP数据包,存放到IP数据包缓冲区内。如果MTP只需要分析HTTP协议数据,则只需要采集携带HTTP协议数据的数据帧,因此MTP采用预览技术直接扫描数据帧的各个特征字节位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示层数据协议类型,只有满足预先设定的采集条件的数据帧才被捕获,其它数据都被过滤掉了。比如如果只需要捕获与服务器80端口通讯的HTTP协议数据的标准以太网数据帧,那么可以检查每个数据帧的第36-37字节位置的TCP目的端口(即跳过14字节的以太数据帧头字段、20字节的IP包头字段、和2个字节的TCP源端口)的值是否为80。通常情况下HTTP协议数据占整个数据流量的10%左右,因此捕获到的含有HTTP协议数据的数据包带宽在20Gbps左右。
在步骤904,通过三个TCP会话定位线程对所有IP数据包进行确定其属于四个TCP会话池分组中的哪一个并放入相应会话池。每个TCP会话是由源IP地址和端口地址以及目的IP地址和端口地址这四个参数唯一确定,MTP的TCP会话池采用映射(map)类型的数据结构容器来存放属于每个TCP会话的数据内容,这样映射类型的TCP会话池将按照TCP会话的四个参数的取值大小顺序存放每个TCP会话。这样,每当需要将新的IP数据包所携带的数据内容放入对应TCP会话中的时候,TCP会话池都可以根据数据包的四个参数快速地定位所属的TCP会话在会话池中的位置,并将数据包中的数据内容添加到所对应的TCP会话数据流中。
在步骤906,在确定每个IP数据包所属的TCP会话之后,MTP将TCP会话的重组任务均匀地分配给运行在不同处理器引擎上的独立的会话重组线程,每个会话重组线程负责完成一组TCP会话的重组工作,相应的TCP会话池也被划分为同等数量的分组。每个TCP会话池将所收到的IP数据包按照TCP协议的滑动窗口原理进行会话重组形成最终的TCP会话数据流,并将重组好的会话数据流放入TCP数据流缓冲区中。每当一个处理器引擎完成一个TCP会话重组时,该TCP会话所包含的数据就被输出到一个共享的TCP数据流缓冲区(TCP StreamBuffer)中存放,下一步的HTPP协议解析器将会从这个缓冲区获得HTTP数据进行处理。
需要指出,在图9的实施例中以举例的方式示出三个数据链路帧捕获线程、三个TCP会话定位线程和四个TCP会话池分组,本领域的技术人员可以理解,在实际应用中可以根据需要确定数据链路帧捕获线程、TCP会话定位线程和TCP会话池分组的数量。
MTP采用与IP数据包捕获线程同等数量的TCP会话定位线程完成IP数据包的TCP会话定位工作,以最大限度地提高重组效率同时避免因IP数据包缓冲区变满造成丢包。由于TCP会话池已根据处理器引擎数目划分为多个分组以同时进行会话重组,这样多个TCP会话定位线程就能够查询多个TCP会话池分组以便快速定位每个IP数据包所属的TCP会话分组和TCP会话,同时实现最大限度的并行化。
在本发明的数据采集过程中,仅捕获需要解析的数据链路层数据包,仅重组需要解析的传输层数据流,仅解析能够反映用户行为的表示层内容数据,并行地捕获、重组、和解析各个层次上的数据内容。经过上述处理,MTP可以过滤掉绝大部分数据量,而只保留对分析用户行为偏好有用的原始数据。通过这样的方式,可以处理电信网络中的海量数据流量,对需要采集的数据进行实时筛选,动态且高效地过滤掉不需要的数据(比如流媒体数据、下载数据),而只处理必需的内容。
图10是本发明的网络内容提供方法的一个应用例的流程图。
如图10所示,在步骤1002,MTP从部署在电信网络中的采集节点上采集到经过预处理的用户上网行为数据;
在步骤1004,预处理数据结果通过电信高速网络非实时地传回MTP数据中心;
在步骤1006,位于数据中心的MTP数据分析子系统非实时地对用户上网行为数据进行数据挖掘分析,得到个人用户的偏好内容结果;
在步骤1008,MTP数据驱动子系统实时地接收来自网站对上网用户偏好内容的查询请求并及时地为网站提供查询结果;
在步骤1010,网站根据从MTP系统获得的结果为正在浏览其页面的用户实时地定制页面内容,为用户提供与其偏好相匹配的个性化的产品和内容服务。
本发明的媒体技术平台系统、数据采集系统和网络内容提供方法,全方位地采集和分析个人用户的网上活动数据并推断其个人偏好特征,为互联网网站提供了与用户偏好和上网场景全面匹配的广告产品服务和信息内容服务,为其带来收益;使用MTP智能信息服务的互联网网站能够为个人用户提供充分定制化的网站页面和完全个性化的浏览内容,为用户提高了网上活动效率,同时提升了上网体验。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (8)

1.一种媒体技术平台系统,其特征在于,包括数据采集子系统、数据存储子系统、数据分析子系统和数据驱动子系统,其中:
数据采集子系统,用于根据终端用户的统一个人标识采集所述终端用户的网上行为数据,并将所述终端用户的网上行为数据发送给数据存储子系统;
数据存储子系统,用于接收所述数据采集子系统发送的所述终端用户的网上行为数据,并存储所述终端用户的网上行为数据;将所述终端用户的网上行为数据发送给数据分析子系统;
数据分析子系统,用于接收所述数据存储子系统发送的所述终端用户的网上行为数据,根据所述终端用户的网上行为数据生成所述终端用户的偏好信息,将所述终端用户的偏好信息发送给数据驱动子系统;
数据驱动子系统,用于接收所述数据分析子系统发送的所述终端用户的偏好信息,根据所述终端用户的偏好信息为所述终端用户提供个性化内容信息;
其中所述数据采集子系统包括:IP数据包捕获模块、数据流重组模块、超文本传输协议HTTP数据筛选模块和内容提取模块,其中:
IP数据包捕获模块,用于根据至少所述终端用户的媒体访问控制MAC地址筛选出需要捕获的数据链路层数据帧,从所述需要捕获的数据链路层数据帧中提取IP数据包,将所述IP数据包发送给数据流重组模块;
数据流重组模块,用于接收所述IP数据包捕获模块发送的IP数据包,根据传输层协议将所述IP数据包重组成传输层会话数据流,并将所述传输层会话数据流发送给HTTP数据筛选模块;
HTTP数据筛选模块,用于接收所述数据流重组模块发送的传输层会话数据流,从所述传输层会话数据流中筛选出HTTP会话数据,并将所述HTTP会话数据发送给内容提取模块;
内容提取模块,用于接收所述HTTP数据筛选模块发送的HTTP 会话数据,根据超文本标记语言HTML协议解析出用户网上行为数据。
2.根据权利要求1所述的媒体技术平台系统,其特征在于,所述IP数据包捕获模块通过预览技术直接扫描数据帧的特征字节位置,提取包括MAC地址、IP地址、传输控制协议/用户数据报协议TCP/UDP端口、表示层数据协议类型的信息,当所述提取的信息满足预先设定的采集条件时,数据帧是需要捕获的数据链路层数据帧,否则,数据帧被过滤。
3.根据权利要求1或2所述的媒体技术平台系统,其特征在于,数据存储子系统还用于接收所述数据分析子系统发送的所述终端用户的偏好信息,并存储所述终端用户的偏好信息。
4.根据权利要求1或2所述的媒体技术平台系统,其特征在于,所述数据分析子系统通过模式匹配和识别的方法分析所述终端用户的网上行为数据,生成所述终端用户的偏好信息。
5.根据权利要求1或2所述的媒体技术平台系统,其特征在于,所述数据驱动子系统采用基于Web Service的网站互连和数据交换技术为网站提供了根据终端用户的偏好信息进行实时定制的动态网站页面,所述页面中包含了和所述终端用户的偏好信息匹配的广告产品内容。
6.一种网络内容提供方法,其特征在于,包括:
通过电信网络环境根据各个终端用户的统一个人标识采集所述终端用户的网上行为数据;
根据所述终端用户的网上行为数据获得的所述终端用户的偏好信息;
根据所述终端用户的偏好信息为所述终端用户提供个性化内容信息;
其中所述通过电信网络环境根据终端用户的统一个人标识采集所述终端用户的网上行为数据步骤包括:
在电信网络接入位置根据所述终端用户的MAC地址筛选出需要捕获的数据链路层数据帧,从所述需要捕获的数据链路层数据帧中提取IP 数据包;
根据所述IP数据包内的IP和端口信息将数据包重组为TCP会话数据流;
根据HTTP协议从TCP会话数据流中筛选出HTTP协议会话数据;
根据HTML协议从HTTP协议会话数据中筛选出所述终端用户的网上行为数据。
7.根据权利要求6所述的网络内容提供方法,其特征在于,所述根据所述终端用户的MAC地址筛选出需要捕获的数据链路层数据帧,从所述需要捕获的数据链路层数据帧中提取IP数据包的步骤包括:
通过预览技术直接扫描数据链路层中数据帧的特征字节位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示层数据协议类型的信息,当所述提取的信息满足预先设定的采集条件时,数据帧是需要捕获的数据链路层数据帧,否则,数据帧被过滤;
从所述需要捕获的数据链路层数据帧中提取IP数据包。
8.根据权利要求7所述的网络内容提供方法,其特征在于,所述根据所述终端用户的偏好信息为所述终端用户提供个性化内容信息的步骤包括:
采用基于Web Service的网站互连和数据交换技术为网站提供了根据终端用户的偏好信息进行实时定制的动态网站页面,所述页面中包含了与所述终端用户的偏好信息匹配的广告产品内容。 
CN2009101438953A 2009-06-02 2009-06-02 媒体技术平台系统、数据采集系统和网络内容提供方法 Active CN101561825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101438953A CN101561825B (zh) 2009-06-02 2009-06-02 媒体技术平台系统、数据采集系统和网络内容提供方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101438953A CN101561825B (zh) 2009-06-02 2009-06-02 媒体技术平台系统、数据采集系统和网络内容提供方法

Publications (2)

Publication Number Publication Date
CN101561825A CN101561825A (zh) 2009-10-21
CN101561825B true CN101561825B (zh) 2012-11-07

Family

ID=41220627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101438953A Active CN101561825B (zh) 2009-06-02 2009-06-02 媒体技术平台系统、数据采集系统和网络内容提供方法

Country Status (1)

Country Link
CN (1) CN101561825B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404240B (zh) * 2010-09-10 2015-07-29 腾讯科技(深圳)有限公司 信息搜索系统及方法
CN103747365B (zh) * 2010-09-17 2017-04-26 华为技术有限公司 基于http流的媒体内容动态插播方法、装置及系统
CN102137137B (zh) * 2010-09-17 2013-11-06 华为技术有限公司 基于http流的媒体内容动态插播方法、装置及系统
CN102572798B (zh) * 2010-12-30 2016-04-20 富泰华工业(深圳)有限公司 手机及其获取资讯的方法
CN102595467B (zh) * 2011-01-04 2014-09-10 中国移动通信集团公司 一种数据采集方法和设备
US8839390B2 (en) * 2011-03-08 2014-09-16 Microsoft Corporation Grouping personal accounts to tailor a web service
US20130091087A1 (en) * 2011-10-10 2013-04-11 Topsy Labs, Inc. Systems and methods for prediction-based crawling of social media network
CN102663078B (zh) * 2012-04-01 2014-02-26 百度在线网络技术(北京)有限公司 一种用于生成网络社区中的待发布信息的方法与设备
CN102945520A (zh) * 2012-11-02 2013-02-27 中兴通讯股份有限公司 一种设备管理系统及方法
CN103402177B (zh) * 2013-08-02 2016-02-17 南京市海聚信息科技有限公司 一种WiFi终端信息推送系统及其实现方法
CN104376027B (zh) * 2013-08-16 2018-07-10 上海未来宽带技术股份有限公司 基于社会化媒体的信息采集分析系统及其方法
CN104156694B (zh) * 2014-07-18 2019-03-19 百度在线网络技术(北京)有限公司 一种用于识别图像中的目标对象的方法与设备
US9554267B2 (en) * 2014-11-21 2017-01-24 Facebook, Inc. Techniques to associate user data with a mobile device
CN106202079A (zh) * 2015-04-30 2016-12-07 阿里巴巴集团控股有限公司 信息获取方法、装置和系统
CN104881353B (zh) * 2015-06-15 2017-09-26 重庆中科云仿科技有限公司 面向Hive平台的用户行为审计系统及方法
CN105512910A (zh) * 2015-11-27 2016-04-20 北京奇虎科技有限公司 一种目标用户筛选方法和装置
CN105787010B (zh) * 2016-02-23 2019-08-16 北京凯行同创科技有限公司 基于个人数据的采集处理及推送方法及系统
CN106254316B (zh) * 2016-07-20 2019-07-05 北京工业大学 一种基于数据依赖的工控行为异常检测系统
CN106372220A (zh) * 2016-09-06 2017-02-01 深圳市牛商网络股份有限公司 一种网站分站生成的方法、终端及其系统
CN106682144B (zh) * 2016-12-20 2018-07-13 深圳壹账通智能科技有限公司 页面展示方法和装置
CN107104855B (zh) * 2017-04-24 2019-11-01 国网福建省电力有限公司 一种用电信息采集终端在线时长、在线率的统计方法
CN107483554A (zh) * 2017-07-25 2017-12-15 中天宽带技术有限公司 基于onu的网络流量进行机器学习定向广告的推送系统和方法
CN112825518A (zh) * 2019-11-21 2021-05-21 湖北省电力勘测设计院有限公司 一种基于内容过滤的应用协议筛选及匹配方法
CN117556065B (zh) * 2024-01-11 2024-03-26 江苏古卓科技有限公司 基于深度学习的大模型数据管理系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346710A (zh) * 2005-10-21 2009-01-14 费瓦科技有限公司 网络运营及包括数据获取、处理、提供和/或互操作性特征的信息处理的系统和方法
CN101355550A (zh) * 2007-07-27 2009-01-28 中国电信股份有限公司 配合电信宽带aaa系统作宽带信息推送的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346710A (zh) * 2005-10-21 2009-01-14 费瓦科技有限公司 网络运营及包括数据获取、处理、提供和/或互操作性特征的信息处理的系统和方法
CN101355550A (zh) * 2007-07-27 2009-01-28 中国电信股份有限公司 配合电信宽带aaa系统作宽带信息推送的方法和系统

Also Published As

Publication number Publication date
CN101561825A (zh) 2009-10-21

Similar Documents

Publication Publication Date Title
CN101561825B (zh) 媒体技术平台系统、数据采集系统和网络内容提供方法
CN101556609B (zh) 基于网页内容的客户行为分析和服务系统
CN102340529B (zh) 一种基于wap平台的页面生成系统及页面生成方法
CN103595576B (zh) 一种基于内容提供商标识的互联口icp流量统计系统及方法
CN100596135C (zh) 一种确定内容提供商优先级的系统和方法
CN103218431B (zh) 一种能识别网页信息自动采集的系统
US9628363B2 (en) Network usage monitoring and analytics for differentiated data services
CN107040863B (zh) 实时业务推荐方法及系统
CN105101231B (zh) 一种lte网络部署方法及装置
US20170249672A1 (en) Systems and methods for generating network intelligence through real-time analytics
US20070214207A1 (en) Method and system for accurate issuance of data information
CN102364468A (zh) 一种用户网络行为分析方法、装置和系统
CN102111453A (zh) 一种提取互联网用户网络行为的方法和系统
CN102591942A (zh) 一种应用自动推荐的方法及装置
CN102054033A (zh) 表情搜索引擎、使用该表情搜索引擎的表情管理系统及表情管理方法
CN102882703A (zh) 一种基于http分析的url自动分类分级的系统及方法
CN103488788A (zh) 一种应用自动推荐的方法及装置
CN103220305A (zh) 网络媒介信息的分享处理系统和处理方法
Jun et al. Mining and modelling the dynamic patterns of service providers in cellular data network based on big data analysis
CN105975479A (zh) 一种基于标签库的电信用户兴趣度分析方法及系统
CN201414134Y (zh) 媒体技术平台系统和数据采集系统
CN102404239A (zh) 一种用于在微博中提供广播消息的方法和系统
CN110659414A (zh) 一种基于用户画像的个性化信息推送方法及用户端
CN101500017A (zh) 一种基于流量提供业务的方法及其系统
CN106789242A (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析引擎

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100022 Beijing city Chaoyang District East Third Ring Road, building 39, room 1602 No. SOHO7

Patentee after: Beijing xiaochinatang Culture Communication Co., Ltd.

Address before: 100022 Beijing city Chaoyang District East Third Ring Road, building 39, room 1602 No. SOHO7

Patentee before: Beijing Maxit Technology Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201116

Address after: 215500 No.13, Caotang Road, Changshu, Suzhou, Jiangsu Province

Patentee after: Changshu intellectual property operation center Co.,Ltd.

Address before: 100022 Beijing city Chaoyang District East Third Ring Road, building 39, room 1602 No. SOHO7

Patentee before: Beijing xiaochinatang Culture Communication Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201224

Address after: 215500 Renyang Rennan Village, Zhitang Town, Changshu City, Suzhou City, Jiangsu Province

Patentee after: CHANGSHU YISHENG COMMODITY Co.,Ltd.

Address before: No.13 caodang Road, Changshu City, Suzhou City, Jiangsu Province

Patentee before: Changshu intellectual property operation center Co.,Ltd.