CN110147488B

CN110147488B - 页面内容的处理方法、处理装置、计算设备及存储介质

Info

Publication number: CN110147488B
Application number: CN201710990793.XA
Authority: CN
Inventors: 赵汗青; 王小可; 李学凯; 刘肖琛; 石鑫; 冯喆
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2023-05-16
Anticipated expiration: 2037-10-23
Also published as: CN110147488A

Abstract

本申请公开了页面内容的处理方法、处理装置、计算设备及存储介质。其中，页面内容的处理方法，包括：当接收到关于页面的附加内容呈现请求时，获取与附加内容呈现请求相匹配的特征数据，其中，附加内容呈现请求包括页面的页面标识和用户标识，特征数据包括第一特征信息和第二特征信息，第一特征信息用于描述页面标识所对应页面中主内容的特征，第二特征信息用于描述用户标识所对应的用户特征；确定与页面有关的备选内容集合；获取该备选内容集合中每个备选附加内容所对应的语义特征信息；以及根据每个备选附加内容的语义特征信息、第一特征信息和第二特征信息，从备选内容集合中选定待呈现到页面的附加内容。

Description

页面内容的处理方法、处理装置、计算设备及存储介质

技术领域

本申请涉及信息投放领域，尤其涉及页面内容的处理方法、处理装置、计算设备及存储介质。

背景技术

随着互联网技术的发展，用户可以在各种智能终端中浏览各种信息。例如。智能终端中应用可以从页面服务器获取页面数据并显示。另外，应用所显示的页面中还可以显示附加内容(不属于页面的主内容，例如为新闻或者广告内容等)。

发明内容

根据本申请一个方面，提出了一种页面内容的处理方法，包括：当接收到关于页面的附加内容呈现请求时，获取与附加内容呈现请求相匹配的特征数据，其中，附加内容呈现请求包括页面的页面标识和用户标识，特征数据包括第一特征信息和第二特征信息，第一特征信息用于描述页面标识所对应页面中主内容的特征，第二特征信息用于描述用户标识所对应的用户特征；确定与页面有关的备选内容集合；获取该备选内容集合中每个备选附加内容所对应的语义特征信息；以及根据每个备选附加内容的语义特征信息、第一特征信息和第二特征信息，从备选内容集合中选定待呈现到页面的附加内容。

根据本申请一个方面，提出了一种页面内容的处理装置，包括：获取单元、选择单元和排序单元。当接收到关于页面的附加内容呈现请求时，获取单元获取与附加内容呈现请求相匹配的特征数据。其中，附加内容呈现请求包括所述页面的页面标识和用户标识。特征数据包括第一特征信息和第二特征信息。第一特征信息用于描述页面标识所对应页面中主内容的特征。第二特征信息用于描述用户标识所对应的用户特征。选择单元适于确定与页面有关的备选内容集合。其中，获取单元还适于获取该备选内容集合中每个备选附加内容所对应的语义特征信息。排序单元适于根据每个备选附加内容的语义特征信息、第一特征信息和第二特征信息，从备选内容集合中选定待呈现到页面的附加内容。

在一些实例中，所述选择单元适于根据下述方式确定与所述页面有关的备选内容集合：根据要呈现所述页面的应用的类型，选定与该应用的类型对应的备选附加内容，并将其作为所述备选内容集合。

在一些实例中，所述排序单元适于根据下述方式以根据每个备选附加内容的语义特征信息、所述第一特征信息和所述第二特征信息，从所述备选附加内容集合中选定待呈现到所述页面的附加内容：根据每个备选附加内容的语义特征信息的部分特征，计算第一相似度和第二相似度，其中，所述第一相似度用于描述所述语义特征信息的部分特征与所述第一特征信息中相应特征之间的相关性，所述第二相似度用于描述所述语义特征信息的部分特征与所述第二特征信息中相应特征之间的相关性；根据每个备选附加内容对应的第一相似度和第二相似度，对所述备选内容集合进行排序，并从所述备选内容集合中提取一个备选内容子集；对于所述备选内容子集中每个备选附加内容，计算与其对应的第三相似度和第四相似度，其中，所述第三相似度用于描述所述备选附加内容的语义特征信息与所述第一特征信息之间的相关性，所述第四相似度用于描述所述备选附加内容的语义特征信息与所述第二特征信息之间的相关性；根据所述备选内容子集中每个备选附加内容对应的第三相似度和第四相似度，对该备选内容子集进行排序，并确定待呈现到所述页面的附加内容。

根据本申请又一个方面，提供一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序。程序存储在该存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行本申请的页面内容的处理方法的指令。

根据本申请又一个方面，提供一种存储介质，存储有一个或多个程序。所述一个或多个程序包括指令。所述指令当由计算设备执行时，使得所述计算设备执行本申请的页面内容的处理方法。

综上，根据本申请的页面内容的处理方案，可以在获取对一个页面的附加内容呈现请求时，获取三种特征信息(即页面的特征信息(第一特征信息)、用户特征(第二特征信息)和备选附加内容的语义特征信息)。在此基础上，根据本申请的处理方案可以基于三种特征信息对备选内容集合进行排序，从而确定待呈现到页面的附加内容(例如为新闻或广告内容等)。特别是，本申请在筛选附加内容(即对备选附加内容进行排序)时，充分考虑页面特征(即页面主内容的特征)、用户特征与附加内容的关联性，从而提高用户在浏览页面时对附加内容的感兴趣程度(感兴趣程度例如可以体现为点击率或转化率等指标)。另外，在对备选附加内容排序时，本申请可以通过初步排序和二次排序，提高对附加内容的筛选效率(即提高选定附加内容的实时性)。

附图说明

为了更清楚地说明本申请实例中的技术方案，下面将对实例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A示出了根据本申请一些实施例的应用场景100的示意图；

图1B示出了根据本申请一个实施例的页面示意图；

图2示出了根据本申请一些实施例的页面内容的处理方法200的流程图；

图3示出了根据本申请一些实施例的生成特征信息的方法300的流程图；

图4示出了图3中步骤S301的实施方法400的流程图；

图5示出了图3中步骤S302的实施方法500的流程图；

图6示出了根据本申请一些实施例的页面内容的处理装置600的示意图；

图7示出了根据本申请一些实施例的页面内容的处理装置700的示意图；及

图8示出了一个计算设备的组成结构图。

具体实施方式

下面将结合本申请实例中的附图，对本申请实例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅是本申请一部分实例，而不是全部的实例。基于本申请中的实例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本申请保护的范围。

图1A示出了根据本申请一些实施例的应用场景的示意图。如图1A所示，应用场景100包括终端设备110、页面服务器120和附加内容服务器130。终端设备110例如可以是台式电脑、笔记本电脑、平板电脑、移动电话或掌上游戏机等各种计算设备。页面服务器120和附加内容服务器均可以被实现为硬件独立的设备、虚拟服务器或者分布式集群等，本申请对此不作限制。终端设备110可以驻留各种应用，例如应用111。应用111可以被实现为从页面服务器120获取并显示页面内容。应用111例如可以是浏览器、即时通讯应用(微信或QQ等)、新闻客户端或者视频客户端等，但不限于此。应用111所显示的页面例如可以是为超文本标记语言(HTML)等格式。在应用111所显示的页面中，来自页面服务器120的内容可以被称为主内容。另外，应用111还可以从附加内容服务器120获取适于在页面中显示的附加内容。这里，页面中显示的附加内容例如为新闻资讯、广告等多媒体内容，但不限于此。图1B示出了根据本申请一个实施例的页面示意图。在图1B所示页面中，区域a用于显示页面的主内容，区域b用于显示附加内容。区域a例如可以显示一篇体育新闻或者新闻报道等等，区域b例如可以显示多个广告链接或者新闻简讯等等。

典型地，终端设备110在向页面服务器120发送页面请求时，还可以向附加内容服务器130发送附加内容呈现请求。这样，附加内容服务器130可以确定并向终端设备110返回附加内容，以便应用111将其呈现在页面中。下面结合图2对确定附加内容的过程进行详细说明。

图2示出了根据本申请一些实施例的页面内容的处理方法200的流程图。这里，方法200例如可以在附加内容服务器130中执行。附加内容服务器130可以例如是广告服务器、广告投放平台、新闻服务器等等。

方法200包括步骤S201。在步骤S201中，当接收到关于页面(例如为一个页面)的附加内容呈现请求(例如应用111所发送的请求，比如是广告请求)时，获取与附加内容呈现请求相匹配的特征数据。其中，附加内容呈现请求包括页面标识和用户标识。这里，页面标识例如可以是统一资源定位符(Uniform Resource Locator，缩写为URL)，也可以其他唯一标识页面的数字ID，本申请对此不作限制。用户标识例如为用户登录应用的账号(例如QQ号或微信号等等)，也可以是与用户对应的设备ID(例如为移动终端识别码(也可以称为手机串号)等等)。特征数据包括第一特征信息和第二特征信息。第一特征信息用于描述页面标识所对应页面的主内容的特征。第二特征信息用于描述用户标识所对应的用户特征。

在步骤S202中，确定与页面有关的备选内容集合。在一个实施例中，步骤S202可以根据要呈现页面的应用的类型，选定与该应用的类型对应的备选附加内容，并将其作为备选内容集合。这里，应用是指向附加内容服务器130请求附加内容的软件。应用的范围例如可以包括微信、手机QQ和手机新闻应用等。换言之，不同类型的应用所对应的备选附加内容可以是不同的。这里，不同的应用可以被认为是投放附加内容的不同渠道。在一个实施例中，应用可以包括与附加内容呈现有关的软件开发包(SDK)组件。应用可以通过该SDK组件发出上述附加内容呈现请求。例如，应用可以在用户请求某个页面时，调用SDK组件发送广告呈现请求。另外说明的是，上述实施例仅仅是示例性说明，本申请的实施例还可以采用其他可实施的方式确定备选内容集合。

在步骤S203中，获取该备选内容集合中每个备选附加内容所对应的语义特征信息。

需要说明的是，在一些实施例中，步骤S201可以通过查询方式获取第一特征信息和第二特征信息。步骤S203也可以通过查询方式获取每个备选附加内容所对应的语义特征信息。换言之，附加内容服务器130在执行步骤S201和步骤S203之前，存储有第一特征信息、第二特征信息和每个备选特征内容所对应的语义特征信息。或者，附加内容服务器130可以与存储上述第一、第二和语义特征信息的存储设备(例如为分布式文件系统集群)通信。下面结合图3对第一特征信息、第二特征信息和每个备选附加内容对应的语义特征信息的生成过程进行说明。

图3示出了根据本申请一些实施例的生成特征信息的方法300的流程图。这里，方法300可以在附加内容服务器130中执行，也可以在其他数据服务器中执行。方法300在附加内容服务器130中执行时，方法300也可以被认为是方法200的一部分。

在步骤S301中，获取页面标识所对应页面的页面数据(即该页面的主内容，而可以不包括附加内容)，并对页面数据进行特征提取操作，以确定第一特征信息。应当理解，步骤S301实际上可以对页面集合(包含步骤S201页面标识所对应的页面)进行特征提取操作，以生成每个页面的第一特征信息。其中，页面集合是指应用(可以从附加内容服务器获取附加内容的应用，例如111等)可以呈现的页面。页面集合例如可以被存储在Hadoop分布式文件系统(HDFS)集群中，但不限于此。从内容角度而言，页面集合中每个页面例如可以是社会新闻、军事、体育或者财经等内容的文章。这样，步骤S201可以从页面集合对应的第一特征信息中查询与附加内容呈现请求中页面标识对应的第一特征信息。更具体而言，根据本申请一个实施例，对于一个待提取特征的页面而言，步骤S301可以被实施为图4所示的方法400。

如图4所示，在步骤S401中，基于预定分词方式，对页面数据进行分词操作，以获取相应的关键词集合。这里，预定分词方式例如可以是文本挖掘者(Text Miner)，也可以是其他适于进行文本挖掘的分词方式。具体而言，步骤S401在对页面数据进行分词操作后，可以根据逆文本频率指数(IDF)和当前的停止词表(即，在页面中出现频率非常高，但对页面的意义没有实质影响的词的集合)，对分词结果进行过滤操作，以排除至少一部分干扰词。在此基础上，步骤S401可以对剩余的关键词进行词分析，例如对关键词进行词扩展、重要性分析(即确认关键词在该页面中权重)和商业性标注(即确定关键词的商业类型)等。其中，关键词重要性的分析方式例如为逆文本频率和词频(term frequency–inverse documentfrequency，简称tf-idf)方式，但不限于此。这里，tf-idf可以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着其在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。商业性标注可以由分类器来执行。分类器例如可以通过线下标注大量的分类样本，并训练预定分类模型而得到。另外说明的是，基于关键词集合可以由向量进行表示，例如，关键词集合可以被生成为一个词向量。该词向量中每个维度对应一个关键词，每个维度的属性包括所对应关键词在页面中权重值。

在步骤S402中，基于预定的主题挖掘方式确定词向量对应的主题集合。该主题集合中每个主题的属性包括该主题在页面中权重值。这里，预定的主题挖掘方式例如为隐藏狄氏分配算法(Latent Dirichlet Allocation，简称LDA)，还可以是其他实现主题挖掘的方式。LDA是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。

在步骤S403中，基于预定的分类方式对主题集合中每个主题进行分类，以确定相应的类别，从而获取主题集合对应的类别集合。该类别集合中每个类别包括一个或多个主题，每个类别的属性包括该类别在页面中权重值。这里，预定分类方式例如为K最近邻分类(K-Nearest Neighbor,简称KNN)算法。KNN算法是一种机器学习算法，基本思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该算法在分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。综上，方法400可以对页面进行文本挖掘，以确定第一特征信息。第一特征信息可以包括页面对应的关键词集合、主题集合和类别集合。

在步骤S302中，获取用户标识对应的用户行为数据，并对该用户行为数据进行特征提取操作，以确定第二特征信息。用户行为数据包括用户的页面浏览记录的集合和搜索记录的集合中至少一个集合。需要说明的是，步骤S302实际上可以获取多个用户标识(包含步骤S201所述的用户标识)中每个用户标识所对应的用户行为数据，并对每个用户行为数据进行特征提取操作，以确定每个用户标识对应的第二特征信息。这样，步骤S201可以从多个用户标识所对应的第二特征信息中，查询附加内容呈现请求中用户标识所对应的第二特征信息。在一些实施例中，步骤302可以被实施为图5所示的方法500。

如图5所示，在步骤S501中，获取用户标识所对应的用户页面浏览记录。这里，步骤S501可以按照预定规则选取一部分页面浏览记录。例如，步骤S501可以选择页面浏览记录中最新的预定数量的记录。基于每条浏览记录，步骤S501可以获取该浏览记录对应的页面。对于每条浏览记录对应的页面，在步骤S502中，对该页面进行特征提取操作，以确定该页面对应的关键词集合、主题集合和类别集合。其中，该页面对应的关键词集合中每个关键词的属性包括在该页面中权重值。该页面对应的主题集合中每个主题的属性包括该主题在该页面中权重值。该页面对应的类别集合中每个类别包括一个或多个主题，每个类别的属性包括该类别在所述页面中权重值。这里，步骤S502更具体实施方式与方法400类似，这里不再赘述。综上，第二特征信息包括用户标识所对应每个页面所对应的关键词集合、主题集合和类别集合。

可选地，用户标识对应的用户行为数据还可以包括用户的搜索记录。相应地，方法500还可以包括步骤S503和步骤S504。

在步骤S503中，获取用户的搜索记录的集合。与步骤S501类似，在步骤S503中，可以按照预定规则确定搜索记录的集合。例如，按照搜索记录的搜索时间，获取预定数量的最新记录并将其作为搜索记录的集合。这里，每条搜索记录主要包括用户所输入的搜索词(或者搜索短语)。

在步骤S504中，对搜索记录的集合中每条搜索记录，进行特征提取操作，以确定该条搜索记录对应的一个关键词集合、主题集合和类别集合。其中，该条搜索记录对应的关键词集合中每个关键词的属性包括骑在搜索记录中权重值。该条搜索记录对应的主题集合中每个主题的属性包括该主题在该条搜索记录中权重值。该条搜索记录对应的类别集合中每个类别包括一个或多个主题。每个类别的属性包括该类别在该条搜索记录中权重值。这里，步骤504更具体的实施方式与方法400类似，这里不再赘述。综上，第二特征信息还可以包括搜索记录所对应的关键词集合、主题集合和类别集合。另外说明的是，上述中方法500仅仅对一个用户标识对应的用户行为数据的特征提取进行了示例性说明。实际上，本申请可以通过方法500对多个用户标识对应的用户行为数据进行特征提取。这样，步骤S201可以从多个用户标识对应的第二特征信息中查询一个用户标识对应的第二特征信息。

在步骤S303中，对备选内容集合中每个备选附加内容，进行特征提取操作，以确定该备选附加内容所对应的语义特征信息。实际上，步骤S303可以对适于呈现至多种应用的附加内容集合(包括但不限于上述备选内容集合)进行特征提取操作，以确定每个附加内容对应的语义特征信息。这样，步骤S203可以从附加内容集合对应的语义特征信息中，查询每个备选附加内容对应的语义特征信息。

下面以一条备选附加内容的特征提取过程为例，对步骤S303进一步说明。

对于一条备选附加内容，步骤S303可以基于预定分词方式，对该备选附加内容进行分词操作，以确定相应的关键词集合。根据关键词集合，步骤S303可以生成备选内容对应的一个关键词集合。该关键词集合可以被表示为一个词向量。该词向量中每个维度对应一个关键词，每个维度的属性包括所对应关键词在页面中权重值。基于预定的主题挖掘方式，步骤S303可以确定词向量对应的主题集合。该主题集合中每个主题的属性包括该主题在相应的备选附加内容中权重值。基于预定的分类方式，步骤S303可以确定主题集合中每个主题的类别，以获取相应的类别集合。该类别集合中每个类别包括一个或多个主题。每个类别的属性包括该类别在备选附加内容中权重值。综上，备选附加内容的语义特征信息包括：该备选附加内容对应的关键词集合、主题集合和类别集合。这里，步骤S303更具体的实施方式与方法400类似，这里不再赘述。

在上述基础上，方法200可以执行步骤S204，根据每个备选附加内容的语义特征信息、第一特征信息和第二特征信息，从备选内容集合中选定待呈现到页面的附加内容。在一些实施例中，步骤S204可以分为初步排序阶段和二次排序阶段。

在初步排序阶段，步骤S204可以根据每个备选附加内容的语义特征信息的部分特征，计算第一相似度和第二相似度。其中，第一相似度用于描述语义特征信息的部分特征与第一特征信息中相应特征之间的相关性。第二相似度用于描述所述语义特征信息的部分特征与第二特征信息中相应特征之间的相关性。这里，语义特征信息的部分特征可以是：分别从关键词集合(或者其对应的词向量)、主题集合和类别集合中所获取的预定维度的特征值。在此基础上，步骤S204可以根据每个备选附加内容对应的第一相似度和第二相似度，对备选内容集合中各备选附加内容进行排序，并根据排序结果从备选内容集合中提取一个备选内容子集。这里，备选内容子集例如包括排名靠前的预定数量的备选附加内容。在一个实施例中，第一和第二相似度的计算过程为：计算第一词相似度、第一主题相似度、第一类别相似度、第二词相似度、第二主题相似度和第二类别相似度。其中，第一词相似度代表备选附加内容所对应的关键词集合中一部分关键词与第一特征信息的关键词集合中一部分关键词的相似度。第一主题相似度代表第一特征信息的主题集合中部分主题与备选附加内容所对应主题集合中部分主题的相似度。第一类别相似度代表第一特征信息的类别集合中部分类别与备选附加内容所对应类别集合中部分类别的相似度。第二词相似度代表在分别计算第二特征信息中每条浏览记录对应的关键词集合中部分关键词与备选附加内容所对应关键词集合中一部分关键词的相似度时所得到的最大值。第二主题相似度代表在分别计算第二特征信息中每条浏览记录对应的主题集合中部分主题与所述备选附加内容所对应主题集合中部分主题的相似度时所得到的最大值。第二类别相似度代表在分别计算第二特征信息中每条浏览记录对应的类别集合中部分类别与备选附加内容所对应类别集合中部分类别的相似度时所得到的最大值。这里，计算相似度的方式例如为余弦相似度，但不限于此。第一相似度包括：第一词相似度、第一主题相似度和第一类别相似度。第二相似度包括：第二词相似度、第二主题相似度和第二类别相似度。另外说明的是，在第二特征信息包括每条搜索记录对应的关键词集合、主题集合和类别集合时，第二词相似度为浏览记录对应的相似度最大值与搜索记录对应的相似度最大值的加权值。其中，浏览记录对应的相似度最大值与搜索记录的相似度最大值计算方式相同。类似地，第二主题相似度和第二类别相似度均为加权值，这里不再赘述。在此基础上，步骤S204可以计算第一词相似度与第二词相似度之和、第一主题相似度与第二主题相似度之和、以及第一类别相似度与所述第二类别相似度之和的加权值。这样，步骤S204可以根据该加权值对备选内容集合进行排序，并根据排序结果提取排名靠前的一部分备选内容作为所述备选内容子集。

在二次排序阶段，对于备选内容子集中每个备选附加内容，步骤S204可以计算与其对应的第三相似度和第四相似度。其中，第三相似度用于描述备选附加内容的语义特征信息与第一特征信息之间的相关性。第四相似度用于描述备选附加内容的语义特征信息与第二特征信息之间的相关性。这样，步骤S204可以根据备选内容子集中每个备选附加内容对应的第三相关性信息和第四相关性信息，对该备选内容子集进行排序，并确定待呈现到页面的附加内容。这里，第三相似度计算方式与第一相似度计算方式类似，第四相似度的计算方式与第二相似度类似。需要说明的是，对于一个备选附加内容而言，步骤S204计算第一和第二相似度的效率高于计算第三和第四相似度的效率。

综上，步骤S204可以在初步排序阶段过滤掉一部分备选附加内容，并且在第二次排序阶段应用比初步排序更高维度的特征数据对备选内容子集进行排序(而不是对备选内容集合中所有备选附加内容信息进行精确排序)，从而可以提高确定附加内容信息的实时性。这里，初步排序和二次排序所应用算法是一致的，尽管特征维度不同。在一个实施例中，二次排序的过程如下所示。

首先，步骤S204可以根据下述公式计算每个备选附加内容对应的总排序值：

tm＝bm+qm+cm

其中：bm＝ctr*bid，cm＝Q₁*(a₁*(e₁+e₂)+a₂*(t₁+t₂)+a₃*(s₁+s₂))，e₂＝b₁*d₁+b₂*d₂，t₂＝b₃*d₃+b₄*d₄，s₂＝b₅*d₅+b₆*d₆，

ctr表示对备选附加内容的点击率预测值(根据预定的点击率模型确定)。bid表示价格系数。bm表示基础排序权重。qm表示备选附加内容的文本质量(即基于该备选附加内容多项质量参数而得到的文本质量)。例如，qm＝Q₂*(1+c₁)*(1+c₂)*...*(1+c_n)，其中，Q₂为一个预定常数，c₁、c₂...c_n分别为一项质量参数。

tm表示总排序值。e₁代表第一特征信息中词向量与一个备选附加内容中关键词集合的相似度。d₁代表在分别计算第二特征信息中每条浏览记录对应的词向量与备选附加内容的语义特征信息中关键词集合的相似度时所得到的最大相似度值。d₂代表在分别计算第二特征信息中每条搜索记录对应的关键词集合与备选附加内容的语义特征信息中词向量的相似度时所得到的最大相似度值。e₂代表第二特征信息中关键词集合与备选附加内容的语义特征信息中词向量的相似度。t₁代表第一特征信息中主题集合与备选附加内容的语义特征信息中主题集合的相似度。d₃代表在分别计算第二特征信息中每条浏览记录对应的主题集合与所述备选附加内容的语义特征信息中主题集合的相似度时所得到的最大相似度值。d₄代表在分别计算第二特征信息中每条搜索记录对应的主题集合与所述备选附加内容的语义特征信息中主题集合的相似度时所得到的最大相似度值。t₂代表第二特征信息的主题集合与备选附加内容的语义特征信息中主题集合的相似度时所得到的最大相似度值。s₁代表第一特征信息中类别集合与备选附加内容的语义特征信息中类别集合的相似度。d₅代表在分别计算第二特征信息中每条浏览记录对应的类别集合与所述备选附加内容的语义特征信息中类别集合的相似度时所得到的最大相似度值。d₆代表在分别计算第二特征信息中每条搜索记录对应的类别集合与备选附加内容的语义特征信息中类别集合的相似度时所得到的最大相似度值。s₂代表第二特征信息中类别集合与备选附加内容的语义特征信息中类别集合的相似度。这里，b₁+b₂＝1，b₃+b₄＝1，b₅+b₆＝1，a₁+a₂+a₃＝1，其中，Q₁、b₁、b₂、b₃、b₄、b₅、b₆、a₁、a₂和a₃分别为一个预定常数。

随后，步骤S204可以根据每个备选附加内容对应的总排序值，对该备选内容子集进行排序。最后，步骤S204可以将排序靠前的至少一个备选附加内容确定为待呈现到页面的附加内容。

综上，根据本申请的页面内容的处理方法，在获取对一个页面的附加内容呈现请求时，可以获取三种特征信息，即页面的特征信息(第一特征信息)、用户特征(第二特征信息)和备选附加内容的语义特征信息。在此基础上，本申请可以基于三种特征信息对备选内容集合进行排序，从而确定待呈现到页面的附加内容(例如为新闻或广告内容等)。特别是，本申请在筛选附加内容(即对备选附加内容进行排序)时，充分考虑页面特征(即页面主内容的特征)、用户特征与附加内容的关联性，从而提高用户在浏览页面时对附加内容的感兴趣程度(感兴趣程度例如可以体现为点击率、转化率等指标)。另外，在对备选附加内容排序时，本申请可以通过初步排序和二次排序，提高确定附加内容的效率(实时性)。

图6示出了根据本申请一些实施例的页面内容的处理装置600的示意图。装置600例如可以驻留在附加内容服务器130中。

如图6所示，装置600包括获取单元601、选择单元602和排序单元603。其中，当接收到关于页面的附加内容呈现请求时，获取单元601可以获取与附加内容呈现请求相匹配的特征数据。这里，附加内容呈现请求包括所述页面的页面标识和用户标识。特征数据包括第一特征信息和第二特征信息。第一特征信息用于描述页面标识所对应页面中主内容的特征。第二特征信息用于描述用户标识所对应的用户特征。

选择单元602可以确定与页面有关的备选内容集合。在一个实施例中，选择单元602适于根据要呈现所述页面的应用的类型，选定与该应用的类型对应的备选附加内容，并将其作为备选内容集合。

获取单元601还适于获取该备选内容集合中每个备选附加内容所对应的语义特征信息。

排序单元603适于根据每个备选附加内容的语义特征信息、第一特征信息和第二特征信息，从备选内容集合中选定待呈现到页面的附加内容。在一个实施例中，排序单元603可以根据每个备选附加内容的语义特征信息的部分特征，计算第一相似度和第二相似度。其中，第一相似度用于描述所述语义特征信息的部分特征与所述第一特征信息中相应特征之间的相关性。第二相似度用于描述语义特征信息的部分特征与第二特征信息中相应特征之间的相关性。排序单元603可以根据每个备选附加内容对应的第一相似度和第二相似度，对备选内容集合进行排序，并从备选内容集合中提取一个备选内容子集。对于备选内容子集中每个备选附加内容，排序单元603可以计算与其对应的第三相似度和第四相似度。其中，第三相似度用于描述备选附加内容的语义特征信息与第一特征信息之间的相关性。第四相似度用于描述备选附加内容的语义特征信息与第二特征信息之间的相关性。序单元603可以根据备选内容子集中每个备选附加内容对应的第三相似度和第四相似度，对该备选内容子集进行排序，并确定待呈现到页面的附加内容。另外说明的是，装置600更具体的实施方式与方法200一致，这里不再赘述。

图7示出了根据本申请一些实施例的页面内容的处理装置700的示意图。装置700例如可以驻留在附加内容服务器130中。如图7所示，装置700包括获取单元701、选择单元702、排序单元703和特征提取单元704。其中，获取单元701、选择单元702和排序单元703的实施方式分别与获取单元601、选择单元602和排序单元603这里不再赘述。

特征提取单元704适于获取页面的页面数据，并对页面数据进行特征提取操作，以确定所述第一特征信息。特征提取单元704还可以获取用户标识对应的用户行为数据，并对该用户行为数据进行特征提取操作，以确定第二特征信息。其中，用户行为数据包括相应用户的页面浏览记录的集合和搜索记录的集合中至少一个集合。对备选内容集合中每个备选附加内容，特征提取单元704可以进行特征提取操作，以确定该备选附加内容所对应的语义特征信息。这里，特征提取单元704更具体的实施方式与方法300一致，这里不再赘述。

图8示出了一个计算设备的组成结构图。如图8所示，该计算设备包括一个或者多个处理器(CPU或GPU)802、通信模块804、存储器806、用户接口810，以及用于互联这些组件的通信总线808。

处理器802可通过通信模块804接收和发送数据以实现网络通信和/或本地通信。

用户接口810包括一个或多个输出设备812，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口810也包括一个或多个输入设备814，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器806可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器806存储处理器802可执行的指令集，包括：

操作系统816，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用818，包括用于实现上述页面内容的处理方法的各种程序，这种程序能够实现上述各实例中的处理流程，比如可以包括图6所示的页面内容的处理装置600或者图7所示的页面内容的处理装置700。这样，本实施例的计算设备可以在获取对页面的附加内容呈现请求时，获取三种特征信息(即页面的特征信息(第一特征信息)、用户特征(第二特征信息)和备选附加内容的语义特征信息)。在此基础上，计算设备可以基于三种特征信息对备选内容集合进行排序，从而确定待呈现到页面的附加内容(例如为新闻或广告内容等)。

另外，本申请的每一个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此本申请还公开了一种非易失性存储介质，其中存储有数据处理程序，该数据处理程序用于执行本申请上述方法的任何一种实例。

另外，本申请所述的方法步骤除了可以用数据处理程序来实现，还可以由硬件来实现，例如，可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述方法的硬件也可以构成本申请。

可以理解的是，在本申请的具体实施方式中，涉及到用户行为数据、用户特征等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述仅为本申请的较佳实例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种页面内容的处理方法，其特征在于，包括：

当接收到关于页面的附加内容呈现请求时，获取与所述附加内容呈现请求相匹配的特征数据，其中，所述附加内容呈现请求包括所述页面的页面标识和用户标识，所述特征数据包括第一特征信息和第二特征信息，所述第一特征信息用于描述所述页面标识所对应页面中主内容的特征，所述第一特征信息包括所述页面对应的关键词集合、主题集合和类别集合，所述第二特征信息用于描述所述用户标识所对应的用户特征，所述第二特征信息包括所述用户标识所对应每个浏览页面所对应的关键词集合、主题集合和类别集合；

根据要呈现所述页面的应用的类型，确定与所述应用的类型有关的备选内容集合，不同类型的应用所对应的备选附加内容不同；

获取所述备选内容集合中每个备选附加内容所对应的语义特征信息，所述语义特征信息包括所述备选附加内容对应的关键词集合、主题集合和类别集合；以及

针对于所述备选内容集合中每个备选附加内容，计算第一词相似度、第一主题相似度、第一类别相似度、第二词相似度、第二主题相似度和第二类别相似度；其中，所述第一词相似度代表所述备选附加内容所对应的关键词集合中部分关键词与所述第一特征信息的关键词集合中部分关键词的相似度，所述第一主题相似度代表所述第一特征信息的主题集合中一部分主题与所述备选附加内容所对应主题集合中一部分主题的相似度，所述第一类别相似度代表所述第一特征信息的类别集合中一部分类别与所述备选附加内容所对应类别集合中一部分类别的相似度，所述第二词相似度代表在分别计算第二特征信息中每条浏览记录对应的关键词集合中一部分关键词与所述备选附加内容所对应关键词集合中一部分关键词的相似度时所得到的最大值，所述第二主题相似度代表在分别计算第二特征信息中每条浏览记录对应的主题集合中一部分主题与所述备选附加内容所对应主题集合中一部分主题的相似度时所得到的最大值，所述第二类别相似度代表在分别计算第二特征信息中每条浏览记录对应的类别集合中一部分类别与所述备选附加内容所对应类别集合中一部分类别的相似度时所得到的最大值；

计算所述第一词相似度与所述第二词相似度之和、所述第一主题相似度与所述第二主题相似度之和、以及所述第一类别相似度与所述第二类别相似度之和的第一加权值；根据所述第一加权值对所述备选内容集合进行排序；根据排序结果从所述备选内容集合中提取排名靠前的一部分备选内容作为备选内容子集；

针对于所述备选内容子集中的每个备选附加内容，根据每个备选附加内容的语义特征信息、所述第一特征信息和所述第二特征信息，确定每个备选附加内容对应的第三相似度和第四相似度，其中，所述第三相似度用于描述所述备选附加内容的语义特征信息与所述第一特征信息之间的相关性，所述第四相似度用于描述所述备选附加内容的语义特征信息与所述第二特征信息之间的相关性；

根据所述备选内容子集中每个备选附加内容对应的第三相似度和第四相似度的第二加权值、基础排序权重和所述备选附加内容的文本质量，计算所述备选内容子集中每个备选附加内容对应的总排序值，所述基础排序权重是根据对所述备选附加内容的点击率预测值和价格系数确定的，所述备选附加内容的文本质量是基于所述备选附加内容的多项质量参数得到的；

根据所述备选内容子集中每个备选附加内容对应的总排序值，对所述备选内容子集中的各备选附加内容进行排序，将排序靠前的至少一个备选附加内容确定为待呈现到所述页面的附加内容。

2.如权利要求1所述的方法，其中，在执行所述获取所述备选内容集合中每个备选附加内容所对应的语义特征信息的步骤之前，所述方法还包括：

获取所述页面的页面数据，并对所述页面数据进行特征提取操作，以确定所述第一特征信息；

获取所述用户标识对应的用户行为数据，并对所述用户行为数据进行特征提取操作，以确定所述第二特征信息，其中，所述用户行为数据包括相应用户的页面浏览记录的集合和搜索记录的集合中至少一个集合；以及

对所述备选内容集合中每个备选附加内容，进行特征提取操作，以确定所述备选附加内容所对应的语义特征信息。

3.如权利要求2所述的方法，其中，所述确定所述第一特征信息的步骤包括：

基于预定分词方式，对所述页面数据进行分词操作，以获取相应的关键词集合，所述关键词集合中每个关键词的属性包括所述关键词在所述页面中权重值；

基于预定的主题挖掘方式确定所述关键词集合对应的主题集合，所述主题集合中每个主题的属性包括所述主题在所述页面中权重值；

基于预定的分类方式对所述主题集合中每个主题进行分类，以获取相应的类别，从而获取所述主题集合对应的类别集合，所述类别集合中每个类别包括一个或多个主题，每个类别的属性包括所述类别在所述页面中权重值。

4.如权利要求2所述的方法，其中，所述获取所述用户标识对应的用户行为数据，并对所述用户行为数据进行特征提取操作，以确定所述第二特征信息的步骤包括：

获取所述用户标识所对应的页面浏览记录；

对所述页面浏览记录所对应的每个页面，进行特征提取操作，以确定所述页面对应的关键词集合、主题集合和类别集合，其中，所述关键词集合中每个关键词的属性包括所述关键词在所述页面中权重值，所述页面对应的主题集合中每个主题的属性包括所述主题在所述页面中权重值，所述页面对应的类别集合中每个类别包括一个或多个主题，每个类别的属性包括所述类别在所述页面中权重值。

5.如权利要求2所述的方法，其中，所述对所述备选内容集合中每个备选附加内容，进行特征提取操作，以确定所述备选附加内容所对应的语义特征信息的步骤包括：

基于预定分词方式，对所述每个备选附加内容进行分词操作，以确定相应的关键词集合，所述关键词集合中每个关键词的属性包括其在所述备选附加内容中权重值；

基于预定的主题挖掘方式，确定所述关键词集合对应的主题集合，所述主题集合中每个主题的属性包括所述主题在相应的备选附加内容中权重值；

基于预定的分类方式对所述主题集合中每个主题进行分类，以获取相应的类别，从而获取所述主题集合对应的类别集合，所述类别集合中每个类别包括一个或多个主题，每个类别的属性包括所述类别在所述备选附加内容中权重值。

6.如权利要求1所述的方法，其中，所述确定每个备选附加内容对应的第三相似度和第四相似度步骤包括：

计算第三词相似度、第三主题相似度、第三类别相似度、第四词相似度、第四主题相似度和第四类别相似度，

其中，所述第三词相似度代表所述备选附加内容所对应的关键词集合与所述第一特征信息的关键词集合的相似度，

所述第三主题相似度代表所述第一特征信息的主题集合与所述备选附加内容所对应主题集合的相似度，

所述第三类别相似度代表所述第一特征信息的类别集合与所述备选附加内容所对应类别集合的相似度，

所述第四词相似度代表在分别计算第二特征信息中每条浏览记录对应的关键词集合与所述备选附加内容所对应关键词集合的相似度时所得到的最大值，

所述第四主题相似度代表在分别计算第二特征信息中每条浏览记录对应的主题集合与所述备选附加内容所对应主题集合的相似度时所得到的最大值，

所述第四类别相似度代表在分别计算第二特征信息中每条浏览记录对应的类别集合与所述备选附加内容所对应类别集合的相似度时所得到的最大值，

其中，所述第三相似度包括：所述第三词相似度、所述第三主题相似度和所述第三类别相似度，所述第四相似度包括：所述第四词相似度、所述第四主题相似度和所述第四类别相似度。

7.如权利要求6所述的方法，其中，所述方法还包括：

计算所述第三词相似度与所述第四词相似度之和、所述第三主题相似度与所述第四主题相似度之和、以及所述第三类别相似度与所述第四类别相似度之和的所述第二加权值。

8.一种页面内容的处理装置，其特征在于，包括：

获取单元，当接收到关于页面的附加内容呈现请求时，获取与所述附加内容呈现请求相匹配的特征数据，其中，所述附加内容呈现请求包括所述页面的页面标识和用户标识，所述特征数据包括第一特征信息和第二特征信息，所述第一特征信息用于描述所述页面标识所对应页面中主内容的特征，所述第一特征信息包括所述页面对应的关键词集合、主题集合和类别集合，所述第二特征信息用于描述所述用户标识所对应的用户特征，所述第二特征信息包括所述用户标识所对应每个浏览页面所对应的关键词集合、主题集合和类别集合；

选择单元，根据要呈现所述页面的应用的类型，确定与所述应用的类型有关的备选内容集合，不同类型的应用所对应的备选附加内容不同；

其中，获取单元还适于获取所述备选内容集合中每个备选附加内容所对应的语义特征信息，所述语义特征信息包括所述备选附加内容对应的关键词集合、主题集合和类别集合；

排序单元，适于：

针对于所述备选内容集合中每个备选附加内容，计算第一词相似度、第一主题相似度、第一类别相似度、第二词相似度、第二主题相似度和第二类别相似度；其中，所述第一词相似度代表所述备选附加内容所对应的关键词集合中部分关键词与所述第一特征信息的关键词集合中部分关键词的相似度，所述第一主题相似度代表所述第一特征信息的主题集合中一部分主题与所述备选附加内容所对应主题集合中一部分主题的相似度，所述第一类别相似度代表所述第一特征信息的类别集合中一部分类别与所述备选附加内容所对应类别集合中一部分类别的相似度，所述第二词相似度代表在分别计算第二特征信息中每条浏览记录对应的关键词集合中一部分关键词与所述备选附加内容所对应关键词集合中一部分关键词的相似度时所得到的最大值，所述第二主题相似度代表在分别计算第二特征信息中每条浏览记录对应的主题集合中一部分主题与所述备选附加内容所对应主题集合中一部分主题的相似度时所得到的最大值，所述第二类别相似度代表在分别计算第二特征信息中每条浏览记录对应的类别集合中一部分类别与所述备选附加内容所对应类别集合中一部分类别的相似度时所得到的最大值；计算所述第一词相似度与所述第二词相似度之和、所述第一主题相似度与所述第二主题相似度之和、以及所述第一类别相似度与所述第二类别相似度之和的第一加权值；根据所述第一加权值对所述备选内容集合进行排序；根据排序结果从所述备选内容集合中提取排名靠前的一部分备选内容作为备选内容子集；

9.如权利要求8所述的处理装置，还包括特征提取单元，适于：

10.一种计算设备，其特征在于包括：

一个或多个处理器；

存储器；以及

一个或多个程序，存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1-7中任一项所述方法的指令。

11.一种存储介质，存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1-7中任一项所述的方法。

12.一种程序产品，存储有指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1-7中任一项所述的方法。