CN103970800B

CN103970800B - 网页相关关键词的抽取处理方法和系统

Info

Publication number: CN103970800B
Application number: CN201310046107.5A
Authority: CN
Inventors: 王莉峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-02-05
Filing date: 2013-02-05
Publication date: 2018-06-15
Anticipated expiration: 2033-02-05
Also published as: CN103970800A

Abstract

本发明公开了一种网页相关关键词的抽取处理方法和系统，包括：信息搜集模块获取指定网页的页面内容和上下文信息，所述上下文信息包括该网页的入链锚信息、和与该网页相关的用户行为信息；第一抽取模块在收到网页访问请求后，根据网络媒介信息投放方的关键词词典，从所访问网页的页面内容和上下文信息中抽取候选关键词；权重排序模于对所抽取的各候选关键词进行权重计算，并根据权重进行排序；第二抽取模块从所述候选关键词中抽取权重排名前n位的关键词，所述n为指定值。利用本发明，可以提高关键词对网页受众特征的覆盖率和相关度，提高在网页上展示的网络媒介信息与浏览该网页的用户的相关度。

Description

网页相关关键词的抽取处理方法和系统

技术领域

本发明涉及互联网的数据处理技术，尤其涉及一种网页相关关键词的抽取处理方法和系统。

背景技术

网络媒介信息是一种在互联网系统的各种展示媒介（如网页、客户端界面等）上发布的以数字代码为载体的各种信息。有些网络媒介信息还对应有目标网页，用户点击了网络媒介信息即可跳转到对应的目标网页，目标网页的内容就会展现在用户面前。

网络媒介信息的发布展示技术最近几年发展非常迅猛，已经应用到许多产业领域。例如互联网的网络广告处理展示领域中，互联网网络广告就是一种网络媒介信息。

如何有效地向特定的受众展示网络媒介信息，并对所展示的媒介信息进行有效的管理，是目前互联网技术业界所关注的一个领域。为了解决前述问题，目前业界出现了一种网络媒介信息发布展示系统。网络媒介信息发布展示系统是一种组织、发布、展示、管理网络媒介信息的数据处理系统。

为了有效地向特定的受众展示相关度较高的网络媒介信息，在现有的一种网络媒介信息发布展示系统中，采用了网页相关关键词抽取技术。所述网页相关关键词抽取技术就是：在与所述网络媒介信息发布展示系统关联的网站上展示网络媒介信息时，从当前用户访问的网页的内容中抽取可以反映该网页主题的关键词，然后从网络媒介信息数据平台中选择投放方所投放的、与该关键词相关度最高的网络媒介信息，将该网络媒介信息发送给当前用户访问的网页上进行展示。

但是，现有的这种网页相关关键词抽取技术存在一个主要的缺点，即：在抽取关键词时，只从当前网页的页面内容中，如标题、正文、meta keywords标签、超链接等页面内容中，抽取关键词，导致抽取的关键词信息数量有限，关键词对网页受众特征的覆盖率较低，所述网页受众特征就是浏览该网页的受众即用户所具有的特征；在网页的文本内容较少时，现有技术甚至抽取不出合适的关键词，导致最终在网页上展示的网络媒介信息与浏览该网页的受众的相关度较低，进而导致受众对该网络媒介信息的关注度较低，严重影响了网络媒介信息的投放效果，网络媒介信息的召回率和转化率（ROI）较低。所述的网络媒介信息召回率是指检索出的网络媒介信息文档数和数据库中所有的相关文档数的比率，所述的网络媒介信息转化率是指在网页上展示网络媒介信息后，受众点击该网络媒介信息的概率。

发明内容

有鉴于此，本发明的主要目的在于提供一种抽取网页相关关键词的方法和系统，以提高关键词对网页受众特征的覆盖率和相关度，提高在网页上展示的网络媒介信息与浏览该网页的用户的相关度。

本发明的技术方案是这样实现的：

一种网页相关关键词的抽取处理方法，包括：

获取指定网页的页面内容和上下文信息，所述上下文信息包括该网页的入链锚信息、和与该网页相关的用户行为信息；

在收到网页访问请求后，根据网络媒介信息投放方的关键词词典，从所访问网页的页面内容和上下文信息中抽取候选关键词；

对所抽取的各候选关键词进行权重计算，并根据权重进行排序；

从所述候选关键词中抽取权重排名前n位的关键词，所述n为指定值。

一种网页相关关键词的抽取处理系统，包括：

信息搜集模块，用于获取指定网页的页面内容和上下文信息，所述上下文信息包括该网页的入链锚信息、和与该网页相关的用户行为信息；

第一抽取模块，用于在收到网页访问请求后，根据网络媒介信息投放方的关键词词典，从所访问网页的页面内容和上下文信息中抽取候选关键词；

权重排序模块，用于对所抽取的各候选关键词进行权重计算，并根据权重进行排序；

第二抽取模块，用于从所述候选关键词中抽取权重排名前n位的关键词，所述n为指定值。

与现有技术相比，本发明不仅要从网页的页面内容中抽取关键词，而且还进一步获取网页的上下文信息，例如网页的入链锚（Anchors）信息和查询点击信息，并从网页的上下文信息中抽取关键词，从而扩大了候选关键词的选择范围，而所述上下文信息中包含了大量的网页受众特征信息，因此本发明可以抽取出更多的与网页受众特征相关的候选关键词，提高了关键词对网页受众特征的覆盖率，提高了在网页上展示的网络媒介信息与浏览该网页的用户的相关度，进而提高了网络媒介信息的召回率和转化率。

附图说明

图1为本发明所述网页相关关键词的抽取处理方法的一种流程图；

图2为本发明所述网页相关关键词的抽取处理系统的一种组成示意图；

图3为本发明所述网页相关关键词的抽取处理系统的又一种组成示意图；

图4为一指定网页的界面示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明

图1为本发明所述网页相关关键词的抽取处理方法的一种流程图，参见图1，该流程包括：

步骤101、获取指定网页的页面内容和上下文信息，所述上下文信息包括该网页的入链锚信息、和与该网页相关的用户行为信息。

在本步骤101中，对于需要展示网络媒介信息的指定网页，所述指定网页可以为一个以上，可以获取每个指定网页的统一资源定位符（URL，Uniform Resource Locator）。针对每个指定网页，利用该网页的URL可以从该网页的服务器或搜索中获取该网页的页面内容（即页面文本Page），例如所述页面内容包括：如标题、正文、meta keywords标签、超链接等。并且，利用该网页的URL还从搜索数据平台中采集获取该网页的入链锚（Anchors）信息，将该入链锚信息作为该网页的上下文信息的一部分。而且还要从搜索数据平台中采集获取对该网页的查询字符串和对应的点击信息，将对该网页的查询字符串和对应的点击信息作为与该网页相关的用户行为信息。例如针对网页1，如果用户在搜索引擎中输入字符串“aaaa”后在搜索结果中显示该网页1，则该“aaaa”就是该网页1的查询字符串，如果用户在搜索结果中点击了该网页1的链接，则该查询字符串“aaaa”对应的点击信息中的点击数则加1。

本发明中，由于所述网页的入链锚信息、和与该网页相关的用户行为信息的数据量较大，因此需要预先离线采集，即在收到网页访问请求之前就需要将网页的入链锚信息、和与该网页相关的用户行为信息采集好。具体的采集方法包括：

（11）采集网页的入链锚信息：使用网络爬虫技术分析网页库中网页之间的链接关系，所述网络爬虫技术是信息检索领域的成熟技术，本文对网络爬虫技术不再赘述，之后从所述网页之间的链接关系中挖掘所有网页的入链锚信息，作为网页的上下文信息中的一部分，存储在指定模块中供后续步骤使用。

（12）采集网页的查询、点击信息：读取搜索数据平台的指定时间内（例如每天）的用户查询和点击日志，从中采集特定网页的查询字符串和对应的点击信息，由于针对一个特定的网页会有一个以上查询字符串和对应的点击信息，因此将针对特定网页的这些查询字符串和对应的点击信息组成一个集合，本文将该集合称为QueryStream，将该集合QueryStream就是与该特定网页相关的用户行为信息，将该用户行为信息作为该网页的上下文信息中的一部分，存储在指定模块中供后续步骤使用。

所述搜索数据平台具有对外的数据接口，所述步骤101中，可以利用指定网页的URL，通过该数据接口从搜索数据平台采集获取得到所访问网页的页面内容、入链锚信息、和与该网页相关的用户行为信息，可以将这些信息表示成与该网页对应的四元组的形式<URL，Page，Anchors，QueryStream>进行存储。

步骤102、在收到网页访问请求后，根据网络媒介信息投放方的关键词词典，从所访问网页的页面内容和上下文信息中抽取候选关键词。

本步骤102具体包括：利用网络媒介信息数据平台的对外接口，从网络媒介信息数据平台中获取所述网络媒介信息投放方的关键词词典，所述关键词词典是由网络媒介信息数据平台根据各网络媒介信息投放方所输入的关键词进行收集统计处理得到的；然后，利用多模式串匹配方式将该关键词词典中的关键词与在上述步骤101中离线获取到的该网页的页面内容和上下文信息进行匹配，将匹配出的关键词作为所抽取的候选关键词。

所述多模式串匹配方式是：就是从文本中搜索出模式串集合中所有模式串的所有出现的位置。例如在本发明中，关键词词典中包含“小米”、“小米手机”、“智能手机”、“手机报价”，页面文本为“小米2怎么样？”，页面上下文包含“高性价比智能手机”、“小米手机评论”，则利用多模式串匹配技术，匹配抽取出所有出现在关键词词典中的文本片段，得到候选关键词有“小米”、“智能收集”。

步骤103、对所抽取的各候选关键词进行权重计算，并根据权重进行排序；例如可以输出一个所述候选关键词的列表，该列表中按照权重由高到低对所述候选关键词进行排序。

本步骤103具体包括：

（31）根据所访问网页的页面内容即所述四元组中的Page确定所述各候选关键词在该网页上的页面特征；根据所访问网页的上下文信息即所述四元组中的Anchors和QueryStream确定所述各候选关键词与该网页的上下文相关特征。

所述候选关键词在所访问网页上的页面特征例如包括：候选关键词在所访问网页上的出现位置参数、词频-逆向文件频率特征（TF-IDF，term frequency–inverse documentfequency）。

所述候选关键词与所访问网页的上下文相关特征，例如可以包括以下特征的任意种：

A）候选关键词是否出现在该网页的入链锚信息中以及出现次数；

B）候选关键词是否作为用户查询字符串出现以及以该查询字符串进行查询的频率；

C）候选关键词作为用户查询字符串查询出该网页后，该网页被点击的频率以及点击用户的总数。

当然，本发明并不限于上述三种上下文相关特征。

（32）根据所述各候选关键词的在该网页上的页面特征和与该网页的上下文相关特征，利用逻辑回归（Logistic regression）方式，构建各候选关键词的逻辑回归模型。

（33）针对所述各候选关键词，根据该候选关键词的逻辑回归模型进行逻辑回归分析计算，得到逻辑回归值，以该逻辑回归值作为该候选关键词的权重；

（34）根据所述各候选关键词的权重对各候选关键词进行排序。

步骤104、从所述候选关键词中抽取权重排名前n位的关键词，所述n为指定值。

在提取出所述排名前n位的关键词之后，本发明还可以进一步包括：从网络媒介信息投放方投放的网络媒介信息中选择与所述前n位的关键词匹配的网络媒介信息，将匹配出的网络媒介信息展示在所访问网页对应的展示位上。

如果所访问的网页对应的展示位有两个以上，不同的展示位可以对应不同排名关键词，根据该展示位对应的关键词匹配与该关键词匹配度最高的网络媒介信息，将该网络媒介信息展示在该展示位上。

与上述方法对应，本发明还公开了一种网页相关关键词的抽取处理系统，用于执行上述方法。图2为本发明所述网页相关关键词的抽取处理系统的一种组成示意图。参见图2，该处理系统包括：

信息搜集模块201，用于获取指定网页的页面内容和上下文信息，所述上下文信息包括该网页的入链锚信息、和与该网页相关的用户行为信息。

该信息搜索模块201具体与搜索数据平台通信，具体用于：从所述搜索数据平台中获取指定网页的入链锚信息；从搜索数据平台中获取对指定网页的查询字符串和对应的点击信息，将对该网页的查询字符串和对应的点击信息作为与该网页相关的用户行为信息。

第一抽取模块202，用于在收到网页访问请求后，根据网络媒介信息投放方的关键词词典，从所访问网页的页面内容和上下文信息中抽取候选关键词。

权重排序模块203，用于对所抽取的各候选关键词进行权重计算，并根据权重进行排序。

第二抽取模块204，用于从所述候选关键词中抽取权重排名前n位的关键词，所述n为指定值。

具体的，所述第一抽取模块202具体包括词典获取模块和匹配模块。

其中，所述词典获取模块与所述网络媒介信息数据平台交互，用于获取所述网络媒介信息投放方的关键词词典；所述关键词词典是由网络媒介信息数据平台根据各网络媒介信息投放方所输入的关键词进行收集统计处理得到的。

所述匹配模块用于利用多模式串匹配方式将该关键词词典中的关键词与该网页的页面内容和上下文信息进行匹配，将匹配出的关键词作为所抽取的候选关键词。

具体的，所述权重排序模块203具体包括：

第一模块，用于根据所访问网页的页面内容确定所述各候选关键词在该网页上的页面特征，根据所访问网页的上下文信息确定所述各候选关键词与该网页的上下文相关特征。其中：

所述候选关键词在所访问网页上的页面特征包括：候选关键词在所访问网页上的出现位置参数、词频-逆向文件频率特征。

所述候选关键词与所访问网页的上下文相关特征，包括以下特征的任意种：

第二模块，用于根据所述各候选关键词的在该网页上的页面特征和与该网页的上下文相关特征，利用逻辑回归方式，构建各候选关键词的逻辑回归模型；

第三模块，用于针对所述各候选关键词，根据该候选关键词的逻辑回归模型进行逻辑回归分析计算，得到逻辑回归值，以该逻辑回归值作为该候选关键词的排序权重；

第四模块，用于根据所述各候选关键词的权重对各候选关键词进行排序。

进一步的，所述网页相关关键词的抽取处理系统进一步包括展示模块，如图3所示为本发明所述网页相关关键词的抽取处理系统的又一种组成示意图。图3所示实施例中，所述展示模块205用于从网络媒介信息投放方投放的网络媒介信息中选择与所述前n位的关键词匹配的网络媒介信息，将匹配出的网络媒介信息展示在所访问网页对应的展示位上。

下面通过一个具体的实例来进一步说明本发明的技术方案。

例如图4为一指定网页的界面示意图。参见图4，该指定网页401的URL为http:// wenwen.soso.com/z/q373842756.htm。本发明可以从该指定网页401的页面内容中直接抽取关键词，例如可以得到“手机”、“手机性价比”、“尼采”，如果历史上有用户曾经在搜索引擎中查询“小米青春版性价比如何？”、“高性价比智能手机”、“三星手机”、“尼采手机”查询字符串等，且搜索结果中显示了该指定网页401的URL且用户也点击了该网页401的URL，这些信息构成了QueryStream。在其他网页上也存在入链Anchors指向该网页401，如所述Anchors为“尼彩手机如何？”、“智能手机比较”、“为什么选择尼采手机？”，则这些QueryStream和Anchors就可以作为当前页面的上下文信息，用于抽取更多关键词，如“小米”、“小米青春版”、“高性价比智能手机”、“智能手机”、“高性价比”、“三星手机”、“尼彩手机”。因此在用户访问该网页401时，本发明在保证页面内容语义不变的同时，比现有技术抽取到了更多关键词，进而用于相关性网络媒介信息检索中。

因此通过上述方案，本发明扩大了候选关键词的选择范围，而所述上下文信息中包含了大量的网页受众特征信息，因此本发明可以抽取出更多的与网页受众特征相关的候选关键词，提高了关键词对网页受众特征的覆盖率，提高了在网页上展示的网络媒介信息与浏览该网页的用户的相关度，进而提高了网络媒介信息的召回率和转化率。

另外本发明针对网络媒介信息展示应用领域的各方具有以下有益效果：

（1）对用户来讲，可以针对更多网页主题相关的内容，为用户展示相关性更强的、体验更好的网络媒介信息。

（2）对网络媒介信息投放者来讲，可以精准地将网络媒介信息投放到与网络媒介信息更相关的网页上，提升网络媒介信息点击率、召回率和转化率。

（3）对联盟网站来讲，会融入更多的页面相关的文本内容，可以检索更多、更相关的网络媒介信息，一方面可以提高用户体验，另一方面，有效提升网络媒介信息点击率、转化率，为联盟网站带来更多的收益。

（4）对网络媒介信息投放平台，通过精准定向，吸引更多的网络媒介信息投放方和联盟网站，提高网络媒介信息投放平台的收益。

另外，由于本发明抽取操作在后台进行，不会影响前台的网页展示，对用户的浏览体验不会造成影响。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统或装置，或一些特征可以忽略，或不执行。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种网页相关关键词的抽取处理方法，其特征在于，包括：

从所述候选关键词中抽取权重排名前n位的关键词，所述n为指定值；

所述对所抽取的各候选关键词进行权重计算，并根据权重进行排序，具体包括：

根据所访问网页的页面内容确定所述各候选关键词在该网页上的页面特征，根据所访问网页的上下文信息确定所述各候选关键词与该网页的上下文相关特征；

根据所述各候选关键词的在该网页上的页面特征和与该网页的上下文相关特征，利用逻辑回归方式，构建各候选关键词的逻辑回归模型；

针对所述各候选关键词，根据该候选关键词的逻辑回归模型进行逻辑回归分析计算，得到逻辑回归值，以该逻辑回归值作为该候选关键词的权重；

根据所述各候选关键词的权重对各候选关键词进行排序。

2.根据权利要求1所述的方法，其特征在于，所述获取与指定网页相关的用户行为信息，具体包括：

从搜索数据平台中获取对指定网页的查询字符串和对应的点击信息，将对该网页的查询字符串和对应的点击信息作为与该网页相关的用户行为信息。

3.根据权利要求1所述的方法，其特征在于，所述根据网络媒介信息投放方的关键词词典，从该网页的页面内容和上下文信息中抽取候选关键词，具体包括：

获取所述网络媒介信息投放方的关键词词典；

利用多模式串匹配方式将该关键词词典中的关键词与该网页的页面内容和上下文信息进行匹配，将匹配出的关键词作为所抽取的候选关键词。

4.根据权利要求1所述的方法，其特征在于，所述候选关键词在所访问网页上的页面特征，包括：候选关键词在所访问网页上的出现位置参数、词频-逆向文件频率特征。

5.根据权利要求1所述的方法，其特征在于，所述候选关键词与所访问网页的上下文相关特征，包括以下特征的任意种：

候选关键词是否出现在该网页的入链锚信息中以及出现次数；

候选关键词是否作为用户查询字符串出现以及以该查询字符串进行查询的频率；

候选关键词作为用户查询字符串查询出该网页后，该网页被点击的频率以及点击用户的总数。

6.根据权利要求1所述的方法，其特征在于，在从所述候选关键词中抽取权重排名前n位的关键词之后，进一步包括：

从网络媒介信息投放方投放的网络媒介信息中选择与所述前n位的关键词匹配的网络媒介信息，将匹配出的网络媒介信息展示在所访问网页对应的展示位上。

7.一种网页相关关键词的抽取处理系统，其特征在于，包括：

第二抽取模块，用于从所述候选关键词中抽取权重排名前n位的关键词，所述n为指定值；

所述排序模块具体包括：

第一模块，用于根据所访问网页的页面内容确定所述各候选关键词在该网页上的页面特征，根据所访问网页的上下文信息确定所述各候选关键词与该网页的上下文相关特征；

8.根据权利要求7所述的系统，其特征在于，所述信息搜索模块具体与搜索数据平台通信，具体用于：从所述搜索数据平台中获取指定网页的入链锚信息；从搜索数据平台中获取对指定网页的查询字符串和对应的点击信息，将对该网页的查询字符串和对应的点击信息作为与该网页相关的用户行为信息。

9.根据权利要求7所述的系统，其特征在于，所述第一抽取模块具体包括：

词典获取模块，用于获取所述网络媒介信息投放方的关键词词典；

匹配模块，用于利用多模式串匹配方式将该关键词词典中的关键词与该网页的页面内容和上下文信息进行匹配，将匹配出的关键词作为所抽取的候选关键词。

10.根据权利要求7所述的系统，其特征在于，所述候选关键词在所访问网页上的页面特征，包括：候选关键词在所访问网页上的出现位置参数、词频-逆向文件频率特征。

11.根据权利要求7所述的系统，其特征在于，所述候选关键词与所访问网页的上下文相关特征，包括以下特征的任意种：

12.根据权利要求7所述的系统，其特征在于，该系统进一步包括：

展示模块，用于从网络媒介信息投放方投放的网络媒介信息中选择与所述前n位的关键词匹配的网络媒介信息，将匹配出的网络媒介信息展示在所访问网页对应的展示位上。