CN103577504A

CN103577504A - 一种投放个性化内容的方法和装置

Info

Publication number: CN103577504A
Application number: CN201210284928.8A
Authority: CN
Inventors: 游源; 钟杰萍; 尹攀; 杜家春
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-08-10
Filing date: 2012-08-10
Publication date: 2014-02-12
Also published as: WO2014023121A1

Abstract

本发明实施例提供了一种投放个性化内容的方法，包括：用户行为分析BT服务器接收终端发送的用户信息；对所述终端访问的网页进行分析，获取所述网页的网页类型；根据所述网页的网页类型和所述用户信息，获取用户特征数据；查询所述BT服务器预配置的用户特征数据与投放策略数据的对应关系表，确定所述用户特征数据对应的投放策略数据；将所述用户特征数据和对应的投放策略数据写入所述终端的cookie，以便内容提供服务器收到所述终端的连接请求后，根据所述终端的cookie中的投放策略数据对所述终端进行个性化内容投放。相应地，本发明实施例还提供一种投放个性化的装置，降低了带宽的消耗，提高了服务器的交互效率。

Description

一种投放个性化内容的方法和装置

技术领域

本发明实施例涉及通信领域，尤其涉及一种投放个性化内容的方法和装置。

背景技术

随着社会信息化的步伐加快，新技术，新媒体不断涌现，互联网产品内容供大于求，同质化趋势明显。竞争焦点将转移到服务质量上，即提供满足客户需求的服务。个性化服务是哲学领域顾客满意的具体体现，体现了企业以人为本的经营理念，是现代企业提高核心竞争力的重要途径。如何收集、分析特定用户行为，低成本、高效率的为终端用户提供个性化信息、内容，提高服务品质，是当前业界研究的热点。

现有技术中，用户访问特定内容的内容提供商时，该提供商将当前用户识别信息实时发送到分析平台，该分析平台实时从其所属数据库中获取当前用户特征，并返回给该特定内容提供商或第三方内容提供商，以提供个性化内容。如，如当用户登录网站时，该网站需要与用户行为分析系统进行实时通信，再由该系统实时查询到相关用户数据信息后，实时将当前用户类型结果返回给当前网站(或第三方广告提供商)组织与该用户相匹配的个性化内容投放，最终返回给当前用户终端。上述步骤包括多次服务器间网络实时通信，中间环节多，反应速度与投放可靠性严重依赖用户网络环境，带宽消耗大，且服务器交互效率不高。

发明内容

有鉴于此，本发明实施例提供了一种投放个性化内容的方法和装置，解决了现有技术中定制个性化内容时带宽消耗大及服务器交互效率不高的问题。

本发明实施例提供一种投放个性化内容的方法，包括：

用户行为分析BT服务器获取终端在访问网页过程中发送的用户信息，并对所述终端访问的网页进行分析，获取所述网页的网页类型；根据所述网页的网页类型和所述用户信息，获取用户特征数据；

查询所述BT服务器预配置的用户特征数据与投放策略数据的对应关系表，确定所述用户特征数据对应的投放策略数据；

将所述用户特征数据和对应的投放策略数据写入所述终端的cookie，以便内容提供服务器收到所述终端下一次访问网页时发送的访问请求后，根据所述终端的cookie中的投放策略数据对所述终端进行个性化内容投放。

本发明实施例还提供一种投放个性化内容的BT服务器，包括：

获取单元，用于获取终端在访问网页过程中发送的用户信息，并对所述终端访问的网页进行分析，获取所述网页的网页类型；

所述获取单元，还用于根据所述网页的网页类型和所述用户信息，获取用户特征数据；

确定单元，用于查询所述BT服务器预配置的用户特征数据与投放策略数据的对应关系表，确定所述用户特征数据对应的投放策略数据；

写入单元，用于将所述用户特征数据和对应的投放策略数据写入所述终端的cookie，以便内容提供服务器收到所述终端下一次访问网页时发送的访问请求后，根据所述终端的cookie中的投放策略数据对所述终端进行个性化内容投放。

在本发明实施例中，BT服务器收到终端发送的用户信息后，通过对终端访问的网页进行网页类型分析，并根据用户信息和网页类型获取用户特征数据及对应的投放策略，写入终端的cookie，以便下一次内容提供服务器接收终端访问请求时，通过读取终端的cookie，直接对终端进行个性化内容的投放。降低了带宽的消耗，提高了服务器的交互效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的系统架构图；

图2为本发明实施例一的流程图；

图3为本发明实施例二的流程图；

图4为本发明实施例三的架构图。

具体实施方式

图1为本系统的架构图。如图1所示，本系统包括终端，内容提供服务器及用户行为分析(Behavioral Targeting，BT)服务器。该系统通过有线或者无线通信网络相互通信。这些通信网络包括但是不限于移动通信网络(Mobile Telephone Network)，无线本地局域网络(Wireless Local Area Network，LAN)，蓝牙网络(Bluetooth Personal Area Network)，以太网络(Ethernet LAN)，令牌环局部网(a token ring LAN)，广域网(a wide area network)，互联网(the Internet)等等。终端可以包括但是不限于，移动设备(Mobile Device)，可移动通信的PDA装置(a combination PDA and mobile telephone)，PDA，集成信息装置(Integrated Messaging Device，IMD)，个人计算机(Personal Computer，PC)以及笔记本型计算机(Notebook Computer)。这些终端可以移动，也可以位于某个可移动的设备上，例如但不限于汽车，卡车，出租车，公共汽车，轮船，飞机，自行车，摩托车，等等上面。

上述通信设备可以基于各种不同的传输技术实现通信的过程，包括但不限于码分多址(Code Division Multiple Access，CDMA)，全球移动通讯系统(Global System for Mobile Communications，GSM)，通用移动通信系统 (Universal Mobile Telecommunications System，UMTS)，时分多址(Time Division Multiple Access，TDMA)，频分多址(Frequency Division Multiple Access，FDMA)，传输控制协议/因特网互联协议(Transmission Control Protocol/Internet Protocol，TCP/IP)，短消息服务(Short Messaging Service，SMS)，多媒体信息服务(Multimedia Messaging Service，MMS)，e-mail，即时消息服务(Instant Messaging Service，IMS)，蓝牙(Bluetooth)，IEEE 802.11，等等.上述的通信设备之间可以使用不同的媒体资源，包括但是不限于，无线电(radio)，红外线(infrared)，激光(laser)，电缆(cable connection)等等。

内容提供服务器事先向该BT服务器注册其服务，并向其所运营的网页内嵌入指向该BT服务器的特定脚本，由此构成本BT服务器的监控域。用户通过终端访问上述监控域内页面时，该页面将自动加载并执行上述脚本文件。该脚本文件能够自动收集存储用户在浏览该页面中的信息，并发送给BT服务器。BT服务器依据相关模型算法对该用户在其整个监控域内的特定信息进行分析处理，形成对应于当前用户的用户特征数据，并依据该内容提供服务器事先在本BT服务器中针对该用户特征数据所设定的个性化内容投放规则形成相应策略。上述信息依照约定格式通过上述特定脚本写入到用户本地cookie中。由此，当用户再次访问该网站时，该内容提供服务器可以直接获取并执行保存在用户本地的BT分析结果与个性化投放策略数据，进行精准投放。即，BT服务器只需要对用户分析一次，用户再次访问该网站时，内容提供服务器直接通过读取终端本地的cookie，投放个性化内容到该终端用户，而不需要通过BT服务器再对点击流数据进行分析，减少了带宽的消耗，提高了服务器的交互效率。

图2为投放个性化内容的流程图，如图2所示，该图包括：

S101、用户行为分析BT服务器获取终端在访问网页过程中发送的用户信息，并对所述终端访问的网页进行分析，获取所述网页的网页类型；

在终端访问内容提供服务器提供的网页后，终端通过浏览器执行网页上的脚本程序，将用户信息发送至BT服务器。用户信息包括HTTP请求信息，如所请求的URL、跳转来源URL等，被请求页面的信息，如页面标题、关键词、摘要等，以及用户行为信息，如点击、提交、输入、跳转、刷新等。

BT服务器可以对收到的用户信息进行校验和重构。对于校验成功的用户信息需要重构为点击流数据，对于校验失败的用户信息则删除，重新接收新的用户信息并进行校验。

BT服务器获取到用户信息，还需要对终端访问的网页进行分析，获取所述网页的网页类型。需要说明的是，BT服务器获取用户信息以及对终端访问的网页进行分析的步骤并没有严格的时间限制，可以同时进行，也可以先获取用户信息，再对访问的网页进行分析。

BT服务器对终端访问的网页进行分析，其具体的分析步骤如下：

设置网页的类型集合及网页的类型对应的频数的集合。

BT服务器预先将网页内容划分为N类，即体育、财经、科技类等，用{C₁，C₂，...，C_N}表示。并设置集合{M₁，M₂，...，M_N}，其中M_i为C_i类型的频数。频数即在终端访问的总的网页数中，C_i类型的网页数。需要说明的是，{C₁，C₂，...，C_N}和{M₁，M₂，...，M_N}均为BT服务器事先设定的，与终端实际访问的网页的网页类型不同，后者正是需要BT服务器通过{C₁，C₂，...，C_N}和{M₁，M₂，...，M_N}及终端访问的网页的特征数据计算而得。

获取所述网页的特征数据，所述特征数据包括所述网页的类型集合中网页类型对应的关键术语、字符间距和文本长度。

根据所述网页的类型对应的频数的集合，计算所述特征数据的概率，选取所述计算出的概率值中最大的一个或多个概率值，获取所述选取的概率值对应的网页类型。

计算方法如下：BT服务器对每一个分类C_i∈{C₁，C₂，...，C_N}，计算其先验概率

和

其中，为训练集文本总数，表示输入数据不属于分类C_i的数目。计算分类C_i中特征F_i取值为x_k的条件概率

P (F_{i} = x_{k} | C_{i}) = \frac{count (F_{i} = x_{k}, C_{i}) + 1}{Σ_{k = 1}^{| F_{i} |} count (F_{i} = x_{k}, C_{i}) + | F_{i} |},

其中，count(F_i＝x_k，C_i)表示分类C_i中F_i取值为x_k的次数，|F_i|表示特征F_i所能取值的个数。对于信息文本d，根据贝叶斯原理和朴素贝叶斯假设，该信息文本的分类为C_i的概率分别正比于

其中F_i(d)表示信息文本d中特征F_i的取值。故BT服务器分别求出

的值，并将计算结果表述为集合P＝{α₁，α₂，...，α_N}，BT服务器可将P按其元素数值排序，如降序，得到有序集合Q，即元素的值越大其位置越靠前。BT服务器则可确定文本d属于该集合Q中排在第一位的元素所对应的分类，亦可选取排在前K个的元素作为其所对应的分类的概率分布，其选取规则由BT服务器预先配置。例如，C₁、C₂分别表示体育类和旅游类，待分析的网页文本d中包含有“篮球”、“足球”、“旅行”等特征数据，则在经过上述运算后，得到的有序集合Q中，排在第一位的元素对应于C₁，排第二位的元素对应于C₂，若只选取第一位的元素，则BT服务器确定该网页文本d的类型为C₁的类型，即体育类，若选取第一位和第二位的元素，则确定该网页文本d的类型既是体育类，又是旅游类。

S102、根据所述网页的网页类型和所述用户信息，获取用户特征数据；

具体获取用户特征数据的方法如下：

根据所述点击流数据，计算所述网页类型对应的元数据的词频TF、反文档频率IDF及所述TF与所述IDF的乘积TF-IDF；

BT服务器可通过马尔科夫模型公式来计算词频，公式如下：

{tf}_{a_{i}, p} = Σ_{k = 1}^{S} f (k) P (x_{k} = a_{i} | x_{0} = p)

其中，S为设定历史有效步骤数，a_i∈{a₁，...，a_M}为元数据集合中的一个元数据，元数据为表示网页类型的关键术语的数据，如网页类型为体育类，则元数据可以为“体育”，或“足球”，或“篮球”等，其元数据由BT服务器预先设置。终端访问的网页类型p为马尔科夫过程中的目标网页，目标网页即用户在一个时间段内访问的网页，f(k)为一个用于表述前步推移衰减性衰减因子，例如本实施例中，

该衰减因子随着时间的增加其值越小，即权重越小，对于用户行为来说，可以理解为时间越久的用户行为其参考价值越低。P(x_k＝a_i|x₀＝p)表示在一个目标网页中a_i出现的频率，即词频a_i在目标网页p中出现的次数与目标网页p的所有字词出现总次数的比值，tf_ai，p表示词频(Term Frequency，TF)，词频表示词条在文档或目标网页中出现的频率。该公式即表示一个特定的词条在用户从过去到现在访问的网页上出现的频率，例如，要计算“篮球”一词在用户从过去到现在访问的100个网页中的词频，BT服务器根据上述公式，通过输入的参数：a₁＝“篮球”、S＝100，并统计出P(x_k＝a_i|x₀＝p)的大小，最终可通过上述公式计算出“篮球”这个词条的词频。

在BT服务器计算出词频后，还需要将tf_ai，p带入公式：

tfidf_i，j-tf_i，j×idf_i，其中，tf_i，j＝tf_ai，p。

对于上述公式，需要先对TF-IDF(term frequency-inverse document frequency)进行说明，TF-IDF是一种用于检索与文本挖掘的常用加权技术，主要用于评估一个字词对于一个文件集的其中一份文件的重要程度。如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

词频(Term Frequency，TF)指的是某一个给定的词语在该文件或目标网页中出现的频率。目标网页在本发明实施例中，即表示终端访问的网页。逆向文件频率(Inverse Document Frequency，IDF)是一个词语普遍重要性的度量。其原理为：如果包含某一词条的文档或目标网页越少，则IDF越大，说明该词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到：

{idf}_{i} - \log \frac{| D |}{| {j : t_{i} &Element; d_{j}} |}

其中，|D|：资料库中的文件总数或目标网页总数，|{j：t_i∈d_j}|：包含词语t_i的文件数目或包含词语t_i的目标网页数目，(即n_i，j≠0的文件数目)如果该词语不在资料库或目标网页中，就会导致被除数为零，因此一般情况下使用1+|{j：t_i∈d_j}|。

因此，对于公式tfidf_i，j＝tf_i，j×idf_i来说，已知某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，相乘可求出高权重的TF-IDF。TF-IDF即表示过滤掉常见的词语，保留重要的词语，其值越高，该词语越重要。

BT服务器通过上述公式，计算出tf_ai，p和idf的值，并将二者相乘，求出tfidf的值。

选取值最大的一个或多个TF-IDF，确定所述一个或多个TF-IDF值对应的元数据，查询所述元数据与用户特征数据对应关系表，获取所述元数据对应的用户特征数据。

例如，BT服务器先获取终端访问的网页的所有类型，有“体育类”、“音乐类”、“财经类”、“IT类”这4个特定类型，再选取“体育”、“音乐”、“财经”、“IT”4个特定词条，分别求出其tfidf的值，然后按从大到小排列，BT服务器选取值最大的一个或排在前面的几个，假设排列顺序为“体育”、“音乐”、“财经”、“IT”，则BT服务器确定该用户的用户特征为“体育迷”，或者是用户特征为“体育迷”和“音乐达人”，具体的确定过程可以通过查询配置元数据与用户特征的对应关系表获得。用户特征可以是用字符串表示，也可以用其他计算机常用的数据形式，本实施例无限制。

S103、查询所述BT服务器预配置的用户特征数据与投放策略数据的对应关系表，确定所述用户特征数据对应的投放策略数据；

需要说明的是，该对应关系表是BT服务器预先配置的。例如，某用户的用户特征为“普通白领/潮人/美食主义者”，对应的投放策略为“消费电子/餐饮团购”，而用户特征数据用户特征数据和对应的投放策略数据可以用字符串、转义字符、整形数等计算机常用的数据格式表示，这里用字符串表示，分别为“white_collar/fashion_follower/food_lover”、“electronic_consumption/group_purchasing_of_food”。

S104、将所述用户特征数据和对应的投放策略数据写入所述终端的cookie，以便内容提供服务器收到所述终端下一次访问网页时发送的访问请求后，根据所述终端的cookie中的投放策略数据对所述终端进行个性化内容投放。

需要说明的是，终端下一次访问的网页可以是前面步骤中访问过的网页，也可以是另外的网页。

写入的cookie如表1所示：

表1

其中，变量1和变量2分别表示用户特征数据及针对该特征制定的相应的策略，其余的参数，诸如所属域、可选标志、过期时间和创建时间是cookie的文件格式的标准参数。由此，在上述Cookie的有效期内，该网站都可以依照该Cookie中的相关信息进行个性化推送。

写入cookie后，终端再次请求访问内容提供服务器提供的网页时，其内容提供服务器直接读取终端的cookie，获得当前用户特征信息与其指定的投放策略数据内容提供服务器直接执行上述个性化投放策略数据，针对当前用户直接生成个性化内容跳转链接，或向第三方内容服务器请求个性化内容跳转链接，终端访问上述链接时，内容提供服务器向用户投放个性化内容，完成精准投放。

图3是投放个性化内容的一个方法流程，如图3所示，该方法流程包括：

S201、BT服务器与内容提供服务器完成注册过程；

内容提供服务器请求BT服务，在请求消息中携带其网站基本信息，如域名，基本业务类型等，例如，域名为www.example.com，基本业务类型为搜索类型。在接收到内容提供服务器的请求后，BT服务器与内容提供服务器完成注册过程。注册之后，BT服务器在所规定的用户特征集合范围内，依据内容提供服务器预先配置的用户特征与个性化投放策略对应关系表，指定若干针对一个或多个用户特征的个性化投放策略，并定期将数据库中用户数量、对应的用户特征与投放策略的统计结果以报表的形式呈现给内容提供服务器。例如，BT服务器给出的用户特征集合包含有：普通白领，潮人，美食主义者，驴友，追星族等，内容提供服务器可以在该集合中进行任意组合以形成自定义用户分组，如定义分组1＝{普通白领AND驴友}(即同时具备“普通白领”与“驴友”的用户特征人群)，分组2＝{潮人0R追星族}(即具备“潮人”与“追星族”的用户特征两者之一的特定人群)，进而可以对分组1指定投放“户外活动安全”的个性化内容，对分组2指定投放“流行音乐与明星动态”的个性化内容。

S202、BT服务器收集用户信息；

用户通过终端访问包含有BT服务器的特定脚本的网页时，BT服务器开始自动采集当前用户信息，用户信息包括但不限于：HTTP请求信息，如所请求的URL、跳转来源URL等，被请求页面的信息，如页面标题、关键词、摘要等，以及用户行为信息，如点击、提交、输入、跳转、刷新等。其采集过程可以是：用户通过终端访问网页时，终端执行该特定脚本中的命令语句，并发送用户信息至远程的BT服务器。

S203、对用户信息进行校验和重构；

常见的错误或异常记录包括返回数据乱码、重复、异常终止等。BT服务器对上述错误及异常数据将予以抛弃。

BT服务器接收上述用户信息，对其进行校验，可以有很多种校验的方式，本发明实施例对此没有限制。例如，用户信息保存的格式是由一些特征隔断符进行隔断，如“xxxxx^B yyyyy”的形式，其中“^B”为特征隔断符，“x”、“y”为原始数据，其形式可以为字符或其他的在计算机领域中常用的数据形式。若发现其接收到的格式不是上述的格式，如缺少特征隔断符或特征隔断符位置不正确，则BT服务器判断该数据为异常，进行异常与错误剔除，即丢弃接收到的异常的用户信息的数据，重新等待并接收下一组用户信息的数据。若用户信息无异常，则BT服务器将该用户信息重构为点击流数据。重构的意思是将用户信息的数据重新进行处理及整合。具体为：BT服务器将验证后的数据转化为点击流数据，点击流数据种类包括但不限于：用户浏览时间段、浏览时长、浏览该网站的频率、浏览网站的类型。浏览时间段可以分为早上(5:01-12:00)，下午(12:01-6:00)、晚上(6:01-22:00)及深夜(22:01-5:00)，浏览时长表示原始数据中发起页面请求的时间到页面关闭时间的时长，包括：短(小于10秒)、一般(10-30秒)、较长(30秒-100秒)，长(大于100秒)。需要说明的是，所述划分的时间段及时长并没有严格的限制，其余的划分也属于本发明保护的范围。浏览该网站的频率表示单位时间内访问该网站的次数，浏览网站的类型可具体分为体育类、财经类、搜索类等。例如，原始数据中发起页面请求的时间为23:09:23，页面关闭时间为23:11:01，则可将上述数据重构为：访问时间段：深夜(22:01-05:00)；访问时长：较长(30秒-100秒)；访问次数：1次/天；访问网站类型：体育。

S204、实时或定时对网页进行分析；

BT服务器实时或定时对网页的内容进行分析，将网页内容分析结果存入数据库，其结果即为该网页的类型，如体育、财经、科学等类型。

分析可以采取常用的训练算法如支持向量机(SVM)，决策树、神经网络，以及朴素贝叶斯(Naive Bayes)等。首先对网站内容进行分类，如体育、财经、科技、教育、军事等，进而利用上述算法对上述网站训练得到一个分类器，同时抓取特定网页，将上述网站的内容文本投入上述分类器进行分析，并给出相应内容分类。以朴素贝叶斯方法为例，BT服务器对每一个分类C_i∈{C₁，C₂，...，C_N}，计算其先验概率

和

其中，为训练集文本总数，

表示输入数据不属于分类C_i的数目。计算分类C_i中特征F_i取值为x_k的条件概率

P (F_{i} = x_{k} | C_{i}) = \frac{count (F_{i} = x_{k}, C_{i}) + 1}{Σ_{k = 1}^{| F_{i} |} count (F_{i} = x_{k}, C_{i}) + | F_{i} |},

S205、获取用户的特征数据；

在特定条件下，如某一特定用户信息量已达到预设值，或预定的cookie更新周期达到等，BT服务器提取该用户在数据库中的点击流数据与访问的网页类型，并进行建模分析，得到该用户的特征数据，例如，用户1既是“普通白领”，又是“驴友”。

对于获取到的用户行为，可以采用马尔科夫模型或概率模型对先后行为顺序的相互关系进行拟合分析，并附加衰减因子用于表述前步推移衰减性，即时间越久的记录的权重越小。或者采用贝叶斯估计对于用户点击记录类型建模等。

以马尔科夫模型为例：

对于马尔科夫模型来说，其主要思想是从用户过去对网页的操作行为中，推测用户现在对网页的操作行为，即过去的行为与现在的行为的关联度。其公式如下：

{tf}_{a_{i}, p} = Σ_{k = 1}^{S} f (k) P (x_{k} = a_{i} | x_{0} = p)

其中，S为设定历史有效步骤数，a_i∈{a₁，...，a_M}为元数据集合中的一个元数据，元数据为表示网页类型的关键术语的数据。终端访问的网页类型p为马尔科夫过程中的目标网页，目标网页即用户在一个时间段内访问的网页，f(k)为一个用于表述前步推移衰减性衰减因子，例如

该衰减因子随着时间的增加其值越小，即权重越小，对于用户行为来说，可以理解为时间越久的用户行为其参考价值越低。P(x_k＝a_i|x₀＝p)表示在一个目标网页中ai出现的频率，即词频ai在目标网页p中出现的次数与目标网页p的所有字词出现总次数的比值，tf_ai，p表示词频(Term Frequency，TF)，词频表示词条在文档或目标网页中出现的频率。该公式即表示一个特定的词条在用户从过去到现在访问的网页上出现的频率，例如，要计算“篮球”一词在用户从过去到现在访问的100个网页中的词频，BT服务器根据上述公式，通过输入的参数：a₁＝“篮球”、S＝100，并统计出P(x_k＝a_i|x₀＝p)的大小，最终可计算出“篮球”这个词条的词频。

在BT服务器计算出词频后，还需要将将tf_ai，p带入公式：

tfidf_i，j-tf_i，j×idf_i，其中，tf_i，j＝tf_ai，p。

词频(Term Frequency，TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(Inverse Document Frequency，IDF)是一个词语普遍重要性的度量。其原理为：如果包含某一词条的文档或目标网页越少，则IDF越大，说明该词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到：

{idf}_{i} - \log \frac{| D |}{| {j : t_{i} &Element; d_{j}} |}

BT服务器通过上述公式，计算出tf_ai，p和idf的值，并将二者相乘，求出tfidf的值。例如，BT服务器对某一用户进行建模分析，步骤如下：先获取用户浏览的网页的所有类型，有“体育类”、“音乐类”、“财经类”、“IT类”这4个特定类型，再选取“体育”、“音乐”、“财经”、“IT”4个特定词条，分别求出其tfidf的值，然后按从大到小排列，BT服务器选取值最大的一个或排在前面的几个，假设排列顺序为“体育”、“音乐”、“财经”、“IT”，则BT服务器确定该用户的用户特征为“体育迷”，或者是用户特征为“体育迷”和“音乐达人”，具体的确定过程可以通过查询配置词条与用户特征的对照表获得。用户特征可以是用字符串表示，也可以用其他计算机常用的数据形式，本实施例无限制。

S206、将用户特征数据及相应投放策略数据写入cookie中；

BT服务器将得到的上述用户特征与提供该网页的内容提供服务器设定的个性化投放策略进行匹配，获取针对该用户特征的个性化投放策略数据，并转化为指定的cookie的格式，并将其中所包含的用户特征数据与个性化投放策略数据写入终端的cookie中，并设定该cookie的生存周期，即用户特征数据与相应投放策略数据的有效期限。

本发明实施例对写入cookie的方式没有限制，以在当前网站域名下形成单独的一条cookie记录的写入方式为例，该用户的用户特征为“普通白领/潮人/美食主义者”，对应的投放策略为“消费电子/餐饮团购”，则写入的用户特征数据和对应的投放策略数据可以用字符串、转义字符、整形数等计算机常用的数据格式表示，这里用字符串表示，分别为“white_collar/fashion_follower/food_lover”、“electronic_consumption/group_purchasing_of_food”如网站www.example.com在BT服务器监控域内，则写入结果如表1所示。

S207、终端对内容提供服务器发起访问请求；

需要说明的是，在BT服务器将用户特征数据和相应投放策略数据写入cookie后，用户通过终端再一次访问该网页。

S208、内容提供服务器获取当前用户特征数据及相应投放策略数据；

内容提供服务器通过读取终端的Cookie信息，获得当前用户特征信息与其指定的投放策略数据。

S209、内容提供服务器向用户投放个性化内容。

内容提供服务器直接执行上述个性化投放策略数据，针对当前用户直接生成个性化内容跳转链接，或向第三方内容服务器请求个性化内容跳转链接，终端访问上述链接时，内容提供服务器向用户投放个性化内容，完成精准投放。

图4是BT服务器的装置结构图，如图4所示，包括：

获取单元301，用于获取终端在访问网页过程中发送的用户信息，并对所述终端访问的网页进行分析，获取所述网页的网页类型；在终端访问内容提供服务器提供的网页后，终端通过浏览器执行网页上的脚本程序，将用户信息发送至获取单元301。用户信息包括HTTP请求信息，如所请求的URL、跳转来源URL等，被请求页面的信息，如页面标题、关键词、摘要等，以及用户行为信息，如点击、提交、输入、跳转、刷新等。

获取单元301可以对收到的用户信息进行校验和重构。对于校验成功的用户信息需要重构为点击流数据，对于校验失败的用户信息则删除，重新接收新的用户信息并进行校验。

获取单元301获取到用户信息，还需要对终端访问的网页进行分析，获取所述网页的网页类型。需要说明的是，获取单元301获取用户信息以及对终端访问的网页进行分析的步骤并没有严格的时间限制，可以同时进行，也可以先获取用户信息，再对访问的网页进行分析。BT服务器通过设置单元预先将网页内容划分为N类，即体育、财经、科技类等，用{C₁，C₂，...，C_N}表示。并设置集合{M₁，M₂，...，M_N}，其中M_i为C_i类型的频数。频数即在终端访问的总的网页数中，C_i类型的网页数。需要说明的是，{C₁，C₂，...，C_N}和{M₁，M₂，...，M_N}均为BT服务器事先设定的，与终端实际访问的网页的网页类型不同，后者正是需要BT服务器通过{C₁，C₂，...，C_N}和{M₁，M₂，...，M_N}及终端访问的网页的特征数据计算而得。

获取单元301获取所述网页的特征数据，所述特征数据包括所述网页的类型集合中网页类型对应的关键术语、字符间距和文本长度。

计算单元根据所述网页的类型对应的频数的集合，计算所述特征数据的概率，选取所述计算出的概率值中最大的一个或多个概率值，获取所述选取的概率值对应的网页类型。

计算方法如下：BT服务器的计算单元对每一个分类C_i∈{C₁，C₂，...，C_N}，计算其先验概率

和

其中，

为训练集文本总数，表示输入数据不属于分类C_i的数目。计算分类C_i中特征F_i取值为x_k的条件概率

P (F_{i} = x_{k} | C_{i}) = \frac{count (F_{i} = x_{k}, C_{i}) + 1}{Σ_{k = 1}^{| F_{i} |} count (F_{i} = x_{k}, C_{i}) + | F_{i} |},

其中F_i(d)表示信息文本d中特征F_i的取值。故BT服务器的计算单元分别求出

的值，并将计算结果表述为集合P＝{α₁，α₂，...，α_N}，计算单元可将P按其元素数值排序，如降序，得到有序集合Q，即元素的值越大其位置越靠前。确定单元则可确定文本d属于该集合Q中排在第一位的元素所对应的分类，亦可选取排在前K个的元素作为其所对应的分类的概率分布，其选取规则由确定单元预先配置。例如，C₁、C₂分别表示体育类和旅游类，待分析的网页文本d中包含有“篮球”、“足球”、“旅行”等特征数据，则在经过上述运算后，得到的有序集合Q中，排在第一位的元素对应于C₁，排第二位的元素对应于C₂，若只选取第一位的元素，则BT服务器的确定单元确定该网页文本d的类型为C₁的类型，即体育类，若选取第一位和第二位的元素，则确定该网页文本d的类型既是体育类，又是旅游类。

获取单元301的获取步骤如下：

计算单元根据所述点击流数据，计算所述网页类型对应的元数据的词频TF、反文档频率IDF及所述TF与所述IDF的乘积TF-IDF；

BT服务器的计算单元可通过马尔科夫模型公式来计算词频，公式如下：

{tf}_{a_{i}, p} = Σ_{k = 1}^{S} f (k) P (x_{k} = a_{i} | x_{0} = p)

其中，S为设定历史有效步骤数，a_i∈{a₁，...，a_M}为元数据集合中的一个元数据，元数据为表示网页类型的关键术语的数据，如网页类型为体育类，则元数据可以为“体育”，或“足球”，或“篮球”等，其元数据由BT服务器的计算单元预先设置。终端访问的网页类型p为马尔科夫过程中的目标网页，目标网页即用户在一个时间段内访问的网页，f(k)为一个用于表述前步推移衰减性衰减因子，例如本实施例中，

该衰减因子随着时间的增加其值越小，即权重越小，对于用户行为来说，可以理解为时间越久的用户行为其参考价值越低。P(x_k＝a_i|x₀＝p)表示在一个目标网页中a_i出现的频率，即词频a_i在目标网页p中出现的次数与目标网页p的所有字词出现总次数的比值，tf_ai，p表示词频(Term Frequency，TF)，词频表示词条在文档或目标网页中出现的频率。该公式即表示一个特定的词条在用户从过去到现在访问的网页上出现的频率，例如，要计算“篮球”一词在用户从过去到现在访问的100个网页中的词频，BT服务器的计算单元根据上述公式，通过输入的参数：a₁＝“篮球”、S＝100，并统计出P(x_k＝a_i|x₀＝p)的大小，最终可通过上述公式计算出“篮球”这个词条的词频。

在BT服务器的计算单元计算出词频后，还需要将tf_ai，p带入公式：

tfidf_i，j-tf_i，j×idf_i，其中，tf_i，j＝tf_ai，p。

{idf}_{i} - \log \frac{| D |}{| {j : t_{i} &Element; d_{j}} |}

BT服务器的计算单元通过上述公式，计算出tf_ai，p和idf的值，并将二者相乘，求出tfidf的值。

获取单元302选取计算单元计算出的值最大的一个或多个TF-IDF，确定所述一个或多个TF-IDF值对应的元数据，查询所述元数据与用户特征数据对应关系表，获取所述元数据对应的用户特征数据。

例如，BT服务器的获取单元先获取终端访问的网页的所有类型，有“体育类”、“音乐类”、“财经类”、“IT类”这4个特定类型，再选取“体育”、“音乐”、“财经”、“IT”4个特定词条，分别求出其tfidf的值，然后按从大到小排列，获取单元302选取值最大的一个或排在前面的几个，假设排列顺序为“体育”、“音乐”、“财经”、“IT”，则获取单元302获取的该用户的用户特征为“体育迷”，或者是用户特征为“体育迷”和“音乐达人”，具体的获取过程可以通过查询配置元数据与用户特征的对应关系表获得。用户特征可以是用字符串表示，也可以用其他计算机常用的数据形式，本实施例无限制。

确定单元302，用于查询所述BT服务器预配置的用户特征数据与投放策略数据的对应关系表，确定所述用户特征数据对应的投放策略数据；

写入单元303，用于将所述用户特征数据和对应的投放策略数据写入所述终端的cookie，以便内容提供服务器收到所述终端下一次访问网页时发送的访问请求后，根据所述终端的cookie中的投放策略数据对所述终端进行个性化内容投放。

写入单元303写入的cookie如表1所示。

在本发明实施例中，获取单元收到终端发送的用户信息后，获取单元通过对终端访问的网页进行网页类型分析，并根据用户信息和网页类型获取用户特征数据及对应的投放策略，由写入单元写入终端的cookie，以便下一次内容提供服务器接收终端访问请求时，通过读取终端的cookie，直接对终端进行个性化内容的投放。降低了带宽的消耗，提高了服务器的交互效率。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

总之，以上所述仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种投放个性化内容的方法，其特征在于，包括：

用户行为分析BT服务器获取终端在访问网页过程中发送的用户信息，并对所述终端访问的网页进行分析，获取所述网页的网页类型；

根据所述网页的网页类型和所述用户信息，获取用户特征数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述用户特征数据和对应的投放策略数据写入所述终端的cookie，还包括：

添加所述用户特征数据和对应的投放策略数据至所述终端的cookie，并设置所述cookie的所属域、创建时间及过期时间。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述网页的网页类型和所述用户信息，获取用户特征数据之前，还包括：

对所述用户信息进行校验，将校验成功后的用户信息重构为点击流数据。

4.根据权利要求3所述的方法，其特征在于，若对所述用户信息的校验失败，删除所述用户信息。

5.根据权利要求3或4所述的方法，其特征在于，所述获取用户特征数据，包括：

根据所述点击流数据，计算所述网页类型对应的词频TF、反文档频率IDF及所述TF与所述IDF的乘积词频-反文档频率TF-IDF；

选取值最大的一个或多个TF-IDF值，确定所述一个或多个TF-IDF值对应的网页类型，查询所述网页类型与用户特征数据对应关系表，获取所述网页类型对应的用户特征数据。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获取所述网页的网页类型，包括：

设置网页的类型集合及网页的类型对应的频数的集合；

获取所述网页的特征数据，所述特征数据包括所述网页的类型集合对应的关键词、字符间距和文本长度；

7.根据权利要求1-6任一项所述的方法，所述用户信息包括超文本传输协议HTTP请求信息、被请求网页的信息以及用户行为信息。

8.一种用户行为分析BT服务器，其特征在于，包括：

9.根据权利要求8所述的BT服务器，其特征在于，所述写入单元将所述用户特征数据和对应的投放策略数据写入所述终端的cookie，还包括：

所述写入单元添加所述用户特征数据和对应的投放策略数据至所述终端的cookie，并设置所述cookie的所属域、创建时间及过期时间。

10.根据权利要求8或9所述的BT服务器，其特征在于，所述BT服务器还包括：

校验单元，用于对所述用户信息进行校验；

重构单元，用于将校验成功后的用户信息重构为点击流数据。

11.根据权利要求10所述的BT服务器，其特征在于，所述服务器还包括：

计算单元，用于根据所述点击流数据，计算所述网页类型对应的词频TF、反文档频率IDF及所述TF与所述IDF的乘积TF-IDF；

所述获取单元，还用于选取值最大的一个或多个TF-IDF值，确定所述一个或多个TF-IDF值对应的网页类型，查询所述网页类型与用户特征数据对应关系表，获取所述网页类型对应的用户特征数据。

12.根据权利要求8-11任一项所述的BT服务器，其特征在于，所述BT服务器还包括：

设置单元，用于设置网页的类型集合及网页的类型对应的频数的集合；

所述获取单元，还用于获取所述网页的特征数据，所述特征数据包括所述网页的类型集合对应的关键词、字符间距和文本长度；

所述获取单元，还用于根据所述网页的类型对应的频数的集合，计算所述特征数据的概率，选取所述计算出的概率值中最大的一个或多个概率值，获取所述选取的概率值对应的网页类型。

13.根据权利要求8-12任一项所述的BT服务器，所述用户信息包括超文本传输协议HTTP请求信息、被请求网页的信息以及用户行为信息。