CN101101599A

CN101101599A - 一种从网页中提取广告主信息的方法

Info

Publication number: CN101101599A
Application number: CNA2007101176063A
Authority: CN
Inventors: 郑峰
Original assignee: Lean Web Software (beijing) Co Ltd
Current assignee: Lean Web Software (beijing) Co Ltd
Priority date: 2007-06-20
Filing date: 2007-06-20
Publication date: 2008-01-09

Abstract

本发明涉及互联网中文智能处理技术领域，公开了一种从网页中提取广告主信息的方法，该方法包括：A.配置一个基本词库和一个行业词库；B.根据配置的两个词库，对目标网页上的文字信息进行分词，得到一组文本向量；C.根据所述文本向量的特征，对所述文本向量进行向量加权或向量减权；D.采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重；E.对计算出来的文本向量的权重进行排序，并根据文本向量所在网页中的上下文信息，从网页中提取出广告主信息。利用本发明，实现了从网页中迅速提取出有效地广告主信息，大大提高了从网页中获取广告主信息的效率。

Description

一种从网页中提取广告主信息的方法

技术领域

本发明涉及互联网中文智能处理技术领域，尤其涉及一种从网页中提取广告主信息的方法。

背景技术

随着互联网的日益发展，中文网页的数量也在急剧增长。目前，以网页数量排名来看，中文网页位居第四，仅次于英文、日文、德文。而这些中文网页里面所包含的信息是多种多样的，随着电子商务的发展，从网页中准确地提取出广告主信息显得越来越重要。

目前广告主信息主要包括：广告主名称、产品、所属地区和电话。现在主要采用人工录入，加入到广告主数据库中，再从网页中去匹配这些广告主，这样做的缺点在发现未知广告主的时候，显得功能很弱，因为只有在人工知道这个广告主的时候，才能录入到数据库中，从而获得这个广告主的信息。

早期数据量小的时候，是可以这么做的，但是随着信息量的急剧膨胀，这样做势必影响到效率。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的在于提供一种从网页中提取广告主信息的方法，以提高获取广告主信息的效率。

(二)技术方案

为达到上述目的，本发明提供了一种从网页中提取广告主信息的方法，该方法包括：

A、配置一个基本词库和一个行业词库；

B、根据配置的两个词库，对目标网页上的文字信息进行分词，得到一组文本向量；

C、根据所述文本向量的特征，对所述文本向量进行向量加权或向量减权；

D、采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重；

E、对计算出来的文本向量的权重进行排序，并根据文本向量所在网页中的上下文信息，从网页中提取出广告主信息。

上述方案中，步骤A中所述基本词库为常用词库，所述配置基本词库包括：根据搜索引擎检索词频，检索出至少十万条词频，然后将检索到的词频收录到一起构成词库。

上述方案中，步骤A中所述配置行业词库包括：采用网页抓取程序从各个B2B网站上定向抓取行业信息，然后对抓取的行业信息进行统计分词获取行业词汇，生成一个行业词库。

上述方案中，步骤B中所述分词包括：将现代汉语的普通字序列文本分解为词序列的文本。

上述方案中，所述步骤C包括：对出现在标题中的文本向量，将向量权重增至原来的5至10倍；对出现在网页结构中content的简介，将向量权重增至原来的2至3倍；对出现在网页内容中版权信息类的文本向量，将向量权重增至原来的3至5倍；对出现在网页内容中与广告主信息有关的文本向量，将向量权重增至原来的3至5倍；对出现的包含在停词表中文本向量，将向量权重减至原来的1/5至1/10。

上述方案中，步骤D中所述空间向量模型采用以下公式来表征：

W (t, \overset{&RightArrow;}{d}) = \frac{tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)}{\sqrt{Σ_{t &Element; \overset{&RightArrow;}{d}} {[tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)]}^{2}}}

其中，为词t在文本中的权重，而为词t在文本

中的词频，N为训练文本的总数，n₁为训练文本集中出现t的文本数，分母为归一化因子。

上述方案中，步骤E中所述对计算出来的文本向量的权重进行排序时，首先设定一个阈值，将权重大于该阈值的文本向量挑选出来构成一个集合，然后再根据所在网页中的上下文信息，从所述集合中提取出需要的广告主信息。

(三)有益效果

从上述技术方案可以看出，本发明具有以下有益效果：

1、利用本发明，通过配置一个基本词库和一个行业词库，根据配置的两个词库对目标网页上的文字信息进行分词，得到一组文本向量，然后根据所述文本向量的特征，对所述文本向量进行向量加权或向量减权，采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重；最后对计算出来的文本向量的权重进行排序，并根据文本向量所在网页中的上下文信息，从网页中提取出广告主信息，实现了从网页中迅速提取出有效地广告主信息，大大提高了从网页中获取广告主信息的效率。

2、利用本发明，能够对未收录的广告主进行智能提取，从而减少了人工工作量，进一步提高了工作效率。

3、利用本发明，还能够有效地对海量数据信息进行处理，实现对海量数据信息的快速处理。

附图说明

图1为本发明提供的从网页中提取广告主信息的方法流程图；

图2为本发明提供的从网页中提取广告主信息的示意图；

图3为依照本发明实施例提供的数据页的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，图1为本发明提供的从网页中提取广告主信息的方法流程图，该方法包括以下步骤：

步骤101：配置一个基本词库和一个行业词库。基本词库即常用词库，根据搜索引擎检索词频，检索出至少十万条词频，然后将检索到的词频收录到一起即可构成一个基本词库。行业词库收录的词则要偏一些，主要是一些行业词汇。因为处理的是广告主信息，所以行业词库越全越好。这里采用网页抓取程序从各个B2B网站上(例如阿里巴巴、慧聪等)定向抓取行业信息，然后对抓取的行业信息进行统计分词获取行业词汇，生成一个包含内容尽可能全面行业词库。为了准确提取广告主的地区、电话信息，还要准备一个地区名称库，和电话区号库。

步骤102：根据配置的两个词库，对目标网页上的文字信息进行分词，从而得到一组文本向量。所谓分词是将现代汉语的普通字序列文本分解为词序列的文本；例如：我们的祖国多美好，经过分词之后变为：我们的祖国多美好。

步骤103：根据所述文本向量的特征，对所述文本向量进行向量加权或向量减权。具体说来，是根据特定规则，对文本向量进行适当的向量加权和向量减权，具体规则有：

a)、对标题内容进行加权；即对出现在标题中的文本向量，将向量权重增至原来的5至10倍；

b)、对网页结构中content的简介进行加权；即对出现在网页结构中content的简介的文本向量，将向量权重增至原来的2至3倍；

c)、对网页内容里中的版权信息进行加权；即对出现在网页内容中版权信息类的文本向量，将向量权重增至原来的3至5倍；

d)、对网页特定正文进行加权；即对出现在网页内容中与广告主信息有关的文本向量，将向量权重增至原来的3至5倍；此处网页特定正文主要是指和广告主信息有关的正文，如“XX公司”；

e)、根据停词表(就是一些需要大幅减权的词，如：我们、使用等)做减权处理；即对出现的包含在停词表中文本向量，将向量权重减至原来的1/5至1/10；所述停词表(stop word)：在计算权重的时候，有一些词过于常见，如：“我们、是、一些”等，需要减权，否则会影响计算的效果。

步骤104：采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重。

在本步骤中，向量空间模型的基本思想是以向量来表示文本：(W1，W2，W3......Wn)，其中Wi为第i个特征项的权重，那么选取什么作为特征项呢，一般可以选择字、词或词组，根据实验结果，普遍认为选取词作为特征项要优于字和词组，因此，要将文本表示为向量空间中的一个向量，就首先要将文本分词，由这些词作为向量的维数来表示文本，最初的向量表示完全是0、1形式，即，如果文本中出现了该词，那么文本向量的该维为1，否则为0。这种方法无法体现这个词在文本中的作用程度，所以逐渐0、1被更精确的词频代替，词频分为绝对词频和相对词频，绝对词频，即使用词在文本中出现的频率表示文本，相对词频为归一化的词频，其计算方法主要运用TF-IDF公式，本发明采用了一种比较普遍的TF-IDF公式：

W (t, \overset{&RightArrow;}{d}) = \frac{tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)}{\sqrt{Σ_{t &Element; \overset{&RightArrow;}{d}} {[tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)]}^{2}}}

其中，

为词t在文本

中的权重，而

为词t在文本

步骤105：对计算出来的文本向量的权重进行排序，并根据文本向量所在网页中的上下文信息，从网页中提取出广告主信息。

在本步骤中，对计算出来的文本向量的权重进行排序时，首先根据人工多次核对结果数据设定一个阈值(大于该阈值的可认为是有用信息，小于该阈值的则认为是无用信息)，将权重大于该阈值的文本向量挑选出来构成一个集合，然后再根据所在网页中的上下文信息，从所述集合中提取出需要的广告主信息。

上述本发明提供的从网页中提取广告主信息的方法还可以进一步参考图2，图2为本发明提供的从网页中提取广告主信息的示意图。

基于图1所示的从网页中提取广告主信息的方法流程图和图2所示的从网页中提取广告主信息的示意图，以下结合具体的实施例对本发明提供的从网页中提取广告主信息的方法进一步详细说明。

实施例

具体实施的时候，先要准备好词库，基本词库比较容易获得，而行业词库需要从各个行业网站上来获取。本实施例采用的是网页抓取程序(spider)抓取，然后统计分词获得。

获得这些原始数据之后，当需要分析某个页面的广告主信息的时候，通过前述步骤101至步骤105来获取合适的广告主信息。

下面通过实例来具体看一看处理结果。在采集数据的时候，假如碰到如图3所示的一个数据页，图3为依照本发明实施例提供的数据页的示意图，其具体的处理流程如下：

步骤1：准备词库。这是个一次性工作，不用每次分析网页前都准备词库，刚开始准备好，以后定时更新就可以了；

步骤2：经过分词之后，得到这样一组向量：(关键词，位置，次数)。对于上面这个网页而言，就分析成如下的一组向量，(升降，标题，1)，(升降，描述，2)，(升降，内容，8)，(机械，标题，1)，(机械，描述，2)，(机械，内容，6)......；

步骤3：进行位置的加权操作后，得到这样的向量组：(升降，26)、(机械，16)......；

步骤4：采用空间向量模型来计算的权重。W(升降，改网页的文本向量集合)＝d1，W(机械，改网页的文本向量集合)＝d2......把d1，d2......排序；

步骤5：设定一个阈值，取大于该阈值的关键词为我们需要的关键词。如：升降、机械......；

步骤6：根据这些词在网页中的位置，做一些扩展，得到广告主名称和产品信息。同时对照地区和区号对照表，找到广告主相应的地区和电话信息；

通过上述6个步骤之后，将提到如下广告主信息。

广告主名称：苏州美罗升降机械有限公司

经营产品：自动式升降台、固定式升降平台、高空作业平台、液压登车桥等

地区：江苏

电话：0512-65380328

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种从网页中提取广告主信息的方法，其特征在于，该方法包括：

A、配置一个基本词库和一个行业词库；

2、根据权利要求1所述的从网页中提取广告主信息的方法，其特征在于，步骤A中所述基本词库为常用词库，所述配置基本词库包括：

根据搜索引擎检索词频，检索出至少十万条词频，然后将检索到的词频收录到一起构成词库。

3、根据权利要求1所述的从网页中提取广告主信息的方法，其特征在于，步骤A中所述配置行业词库包括：

采用网页抓取程序从各个B2B网站上定向抓取行业信息，然后对抓取的行业信息进行统计分词获取行业词汇，生成一个行业词库。

4、根据权利要求1所述的从网页中提取广告主信息的方法，其特征在于，步骤B中所述分词包括：将现代汉语的普通字序列文本分解为词序列的文本。

5、根据权利要求1所述的从网页中提取广告主信息的方法，其特征在于，所述步骤C包括：

对出现在标题中的文本向量，将向量权重增至原来的5至10倍；

对出现在网页结构中content的简介，将向量权重增至原来的2至3倍；

对出现在网页内容中版权信息类的文本向量，将向量权重增至原来的3至5倍；

对出现在网页内容中与广告主信息有关的文本向量，将向量权重增至原来的3至5倍；

对出现的包含在停词表中文本向量，将向量权重减至原来的1/5至1/10。

6、根据权利要求1所述的从网页中提取广告主信息的方法，其特征在于，步骤D中所述空间向量模型采用以下公式来表征：

W (t, \overset{&RightArrow;}{d}) = \frac{tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)}{\sqrt{Σ_{t &Element; \overset{&RightArrow;}{d}} {[tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)]}^{2}}}

其中，

为词t在文本中的权重，而

为词t在文本中的词频，N为训练文本的总数，n_t为训练文本集中出现t的文本数，分母为归一化因子。

7、根据权利要求1所述的从网页中提取广告主信息的方法，其特征在于，步骤E中所述对计算出来的文本向量的权重进行排序时，首先设定一个阈值，将权重大于该阈值的文本向量挑选出来构成一个集合，然后再根据所在网页中的上下文信息，从所述集合中提取出需要的广告主信息。